多模态

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架,集成了 OpenAI 实时 API 和 RTC 技术,支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能,支持高性能实时通信和模块化扩展,适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

3D

3D-Speaker是一个多模态开源项目,专注于通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码,以及多样化数据集,并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

Reka Flash 3

Reka Flash 3 是一款由 Reka AI 开发的开源推理模型,拥有 21 亿参数,支持多模态输入(文本、图像、视频、音频),并可处理最长 32k 个令牌的上下文。它具备高效的推理能力和多语言支持,适用于日常对话、编码辅助、指令执行等多种场景。模型可在本地部署,支持 4 位量化以降低资源占用,适合广泛的应用需求。

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器,能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息,实现高精度的零样本检测,并支持图像描述生成与多模态任务优化,适用于多种实际应用场景。

FlagevalMM

FlagEvalMM是一个由北京智源人工智能研究院开发的开源多模态模型评测框架,专注于评估处理文本、图像、视频等多模态任务的模型性能。它支持多种任务和指标,采用解耦评测与推理的设计,提供统一的评测流程,集成丰富模型库并兼容多种后端引擎。该工具适用于学术研究、工业应用、模型开发、教育领域及内容创作等多个场景。

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具,集成了自回归和离散扩散建模技术,可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率,减少了采样步骤,适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

Insert Anything

Insert Anything是由多所高校联合开发的图像插入框架,支持多种场景下的对象无缝融合,如艺术创作、虚拟试穿和影视特效等。基于大规模数据集训练,具备高分辨率输出与语义一致性保障。用户可通过掩码或文本指令实现精准控制,适用于创意设计与数字内容生成领域。

FLORA

FLORA是一款面向创意工作者的AI工具平台,通过节点式画布整合文本、图像和视频生成功能,支持故事分析、角色设计、分镜脚本生成及团队协作,提升创意流程效率,适用于视频创作、游戏开发、设计及教育等领域。

VARGPT

VARGPT是一款多模态大语言模型,整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制,支持文本与图像的混合输入和输出,具备高效的视觉生成能力。模型采用三阶段训练策略,提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

星辰大模型

星辰大模型是中国电信研发的AI工具集,涵盖语义、视觉、语音等多模态领域,支持长文本处理、多语种语音识别和多任务视觉处理。平台提供多种模型选择,包括星辰语义模型、星辰语音大模型及星辰多模态大模型,适用于智能客服、内容审核、智能写作、语音识别与合成、图像识别与分析等多种应用场景。