模型

Grok

Grok-1是由xAI公司开发的大型语言模型,具备3140亿参数,是目前参数量最大的开源大语言模型之一。该模型基于Transformer架构,专用于自然语言处理任务,如问答、信息检索、创意写作和编码辅助等。尽管在信息处理方面表现出色,但需要人工审核以确保准确性。此外,Grok-1还提供了8bit量化版本,以降低存储和计算需求。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

Prometheus

Prometheus是一款基于潜在扩散模型的3D生成工具,能够从文本描述中快速生成高质量、高保真的3D场景。其核心技术包括两阶段训练框架、RGB-D潜在空间解耦、前馈生成策略和无分类器引导,确保生成结果在视觉和几何上的准确性与一致性。适用于内容创作、游戏开发、建筑设计等多个领域,显著提升了3D内容生成的效率和质量。

Star

Star-3 Alpha是一款基于F.1架构的图像生成大模型,擅长处理复杂提示词,生成高质量、真实感强的图像。具备出色的美学捕捉能力和丰富的参数调节选项,适用于艺术创作、广告设计、电商展示等多种场景,极大提升了相关行业的设计效率与成果质量。

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法,用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下,通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景,包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

甲骨文AI协同平台

腾讯公司推出的一个专门用于甲骨文研究的AI工具平台。名为“殷契文渊”,在2024年5月28日正式上线。

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

雅意大模型

雅意大模型是安全可靠的企业级专属大模型,具备5大核心能力,共100多个特色技能。

Visily AI

Visily AI,面向非设计师的革命性 AI 驱动的线框工具。