R

腾讯混元T1

T1(Thinker)是腾讯混元推出的深度思考模型,支持逻辑推理与联网搜索,具备高速响应和长文本处理能力。采用Hybrid-Mamba-Transformer架构,提升推理效率与准确性。适用于教育、医疗、市场分析等多个领域,输出简洁、幻觉低,适合复杂指令处理和多任务场景。

ConsistentDreamer

ConsistentDreamer 是由华为慕尼黑研究中心开发的图像到 3D 资产生成技术,能通过单张图像生成多视图一致的 3D 网格。该技术采用多视图先验图像引导和分数蒸馏采样优化,结合动态权重平衡和多种损失函数,提升 3D 表面质量和纹理精度。支持复杂场景编辑、风格转换、物体修改等功能,适用于室内场景、艺术风格转换及跨视图一致性任务。

GENERator

GENERator是阿里云飞天实验室开发的生成式基因组基础模型,基于Transformer解码器架构,具备98k碱基对的上下文长度和120亿参数。它能生成具有生物学意义的DNA序列,应用于蛋白质家族设计、启动子优化、基因组分析及合成生物学等领域。模型通过大规模数据预训练,并经过生物学验证,展现出强大的序列生成与优化能力。

KTransformers

KTransformers是一款由清华大学KVCache.AI团队与趋境科技联合开发的开源工具,用于提升大语言模型的推理性能并降低硬件门槛。它支持在24GB显卡上运行671B参数模型,利用MoE架构和异构计算策略实现高效推理,预处理速度达286 tokens/s,推理速度达14 tokens/s。项目提供灵活的模板框架,兼容多种模型,并通过量化和优化技术减少存储需求,适合个人、企业及研究场景使用。

PIKE

PIKE-RAG是由微软亚洲研究院开发的检索增强型生成框架,旨在提升复杂工业场景下的问答准确性与推理能力。通过知识原子化、多智能体规划等技术,支持多跳问题处理和创造性问题解决。适用于法律、医疗、金融等多个领域,具备结构化知识提取、动态任务分解及分阶段开发等核心功能,提高模型生成结果的可靠性和实用性。

通古大模型

通古大模型是由华南理工大学研发的古籍文言文处理AI工具,基于百川2-7B-Base进行增量预训练,结合24.1亿古籍语料和400万对话数据,采用RAT和RAG技术提升古籍处理效果。支持古文句读、文白翻译、诗词创作、古籍赏析、检索问答及辅助整理等功能,广泛应用于古籍数字化、教育、文化传承与学术研究等领域。

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型,可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构,结合ControlMLP模块与注意力偏差技术,实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全,适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程,确保生成质量与稳定性。

PDF to Podcast

PDF to Podcast 是一款由 NVIDIA 开发的 AI 工具,能够将 PDF 文档自动转换为高质量的音频内容,如播客。该工具结合了大型语言模型、文本到语音技术以及 NVIDIA NIM 微服务架构,支持从 PDF 提取信息并生成结构化文本,再通过语音合成输出自然流畅的音频。用户可自定义生成内容的重点,并支持多种部署方式,适用于企业培训、技术简报、客户服务、医疗教育等多个领域。

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。

PDFtoPDF

PDFtoPDF是一款基于AI和OCR技术的PDF转换工具,支持高精度文字识别(准确率达99.5%),并能保留原始文档排版。具备多语言支持、文件压缩、跨平台使用及翻译功能,适用于学术、办公、教育和个人文档管理等多种场景,显著提升文档处理效率与便捷性。