模型

VITA

VITA-Audio 是一款开源的端到端多模态语音大模型,具备低延迟、高推理效率和多模态交互能力。其核心创新包括轻量级 MCTP 模块和四阶段渐进式训练策略,使模型在语音识别、文本转语音和口语问答等任务中表现优异。支持实时对话、智能客服、教育辅助、医疗辅助及内容创作等多种应用场景,适用于各类语音交互系统。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

FunGPT

FunGPT 是一款基于 InternLM2.5 大模型开发的开源工具,专注于情感互动与情绪调节。它包含“甜言蜜语模式”和“犀利怼语模式”,分别用于提升用户情绪和释放压力。项目采用轻量化模型与 AWQ 量化技术,兼顾性能与效率。适用于创意启发、娱乐互动等多种场景,适合对情感交互感兴趣的开发者和用户。

SuperEdit

SuperEdit是由字节跳动与佛罗里达中央大学联合开发的图像编辑工具,基于扩散模型和优化监督信号,实现高精度的自然语言指令图像编辑。其特点包括高效训练、保留图像质量以及支持多种编辑类型。该工具适用于内容创作、影视、游戏、教育和医疗等多个领域,提供灵活且高效的图像处理方案。

Mogao

Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。

LegoGPT

LegoGPT是一款由卡内基梅隆大学开发的AI工具,可根据文本描述生成稳定、可组装的乐高积木模型。它结合自回归语言模型与大规模数据集,支持自动纹理上色、物理稳定性验证及手动或机器人组装。该工具能有效提升创意设计效率,适用于教育、玩具开发及自动化生产等多个场景。

LTXV

LTXV-13B 是 Lightricks 推出的开源 AI 视频生成模型,拥有 130 亿参数,可在消费级显卡上高效运行,生成速度比同类产品快 30 倍。支持文本、图像转视频及多关键帧调节,具备多尺度渲染和高压缩率技术,适用于影视、广告、游戏、教育等多个领域,提升内容创作效率与质量。

PixelHacker

PixelHacker是一款由华中科技大学与VIVO AI Lab联合开发的图像修复模型,采用潜在类别引导机制,通过线性注意力实现结构与语义一致性的高质量修复。基于大规模数据集训练并经过多基准微调,支持多种图像类型与分辨率。适用于照片修复、对象移除、艺术创作、医学影像及文化保护等领域。

Seed1.5

Seed1.5-Embedding 是由字节跳动推出的高性能向量模型,基于 Seed1.5 训练优化,具有强大的语义编码和检索能力。模型采用 Siamese 双塔结构,支持多种向量维度,并通过两阶段训练提升表征能力。它适用于信息检索、文本分类、推荐系统、聚类分析等多种任务,尤其在复杂查询和推理任务中表现突出,具备良好的灵活性和可扩展性。

FastVLM

FastVLM是一款高效的视觉语言模型,采用FastViTHD混合视觉编码器,显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时,降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务,具备良好的实用性和扩展性。