开源模型

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。

Open Code Reasoning

Open Code Reasoning(OCR)是英伟达推出的开源代码推理AI模型,基于Nemotron架构设计,支持多种编程语言。它具备代码生成、逻辑补全、多语言处理及高效推理能力,适用于代码优化、教育、测试等多个场景。OCR提供32B、14B和7B三种参数版本,满足不同计算需求,并与主流框架兼容,具有良好的扩展性。

腾讯混元3D

全称为Hunyuan3D-1.0,是腾讯推出的一款同时支持文生和图生的3D开源模型,解决现有3D生成模型在生成速度和泛化能力的不足。

AI推理模型有哪些?13个支持深度思考的推理模型

本文介绍了13款支持深度思考的AI推理模型,涵盖数学、代码、自然语言推理等多个领域。这些模型通过强化学习和大数据分析,能够高效处理复杂问题,提供精准的决策支持。部分模型具备多模态处理能力、透明推理过程及开源特性,适用于不同应用场景,如教育、医疗和科研等。

Jan.ai

ChatGPT 的开源、托管替代品,jan.ai可在您的计算机上100%离线运行。

YuE

YuE 是一款由香港科技大学与 Multimodal Art Projection 联合开发的开源 AI 音乐生成模型,支持多语言和多种音乐风格,如流行、金属、爵士、嘻哈等。通过语义增强音频分词器、双分词技术和三阶段训练方案,解决长上下文处理与音乐生成难题,生成结构连贯、旋律优美的歌曲。模型完全开源,用户可自由使用和定制,适用于音乐创作、影视配乐、游戏音效及社交媒体内容制作等多个场景。

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。

Hunyuan3D 2.0

Hunyuan3D 2.0是腾讯推出的3D资产生成系统,支持从文本和图像生成高分辨率3D模型。系统采用两阶段生成流程,包含几何生成与纹理合成两个核心模块,具备高精度、高质量输出能力。支持多平台使用,涵盖游戏开发、UGC创作、电商、工业设计等多个应用场景,并提供多个开源模型供研究与开发使用。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。