多模态

URM

URM是由阿里妈妈开发的通用推荐模型,结合大语言模型与电商领域知识,提升推荐效果。其采用多模态融合与Sequence-In-Set-Out生成方式,支持多场景、多目标、长尾及发现性推荐。具备高效率、零样本学习能力,适用于工业级推荐系统,已应用于阿里妈妈展示广告场景,优化用户体验与商家投放效果。

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架,旨在提升模型对未知视觉内容的理解能力。它通过网络检索,使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色,支持图像描述生成、网络知识搜索、协作生成等功能,可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型,具备听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语,主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准,用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题,涵盖26个子类别,支持多层次标注和细粒度异常注释,并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现,揭示了这些模型在合成数据检测任务中的优势与不足。

OmniCorpus

OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。OmniCorpus不仅规模庞大,而且数据质量高,适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。

ScreenAI

ScreenAI是一款专为理解和处理用户界面(UI)及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系,并生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息,并采用自回归解码器生成自然语言响应。此外,ScreenAI还能适应不同屏幕格式,提供精确的UI导航和内容摘要功能。

Fourier N1

Fourier N1是一款由傅利叶推出的开源人形机器人,具备23个自由度,可完成复杂动作如单足站立、坡道通行和楼梯攀爬。搭载自研控制系统和FSA 2.0执行器,支持高速稳定运行。支持多模态交互,适用于教学、康复辅助、物流搬运、家务服务及灾难救援等领域,提供全面的开源资源以支持开发与研究。

Optimus

Optimus-1是一款由哈尔滨工业大学(深圳)和鹏城实验室联合开发的智能体框架,专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验,通过混合多模态记忆模块(HDKG与AMEP)提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化,已在游戏、虚拟助理、工业自动化等领域得到验证。

Quasar Alpha

Quasar Alpha是一款预发布AI模型,具备100万token的超大上下文窗口,可高效处理长文本和复杂文档。其在代码生成、指令遵循、多模态处理等方面表现出色,支持联网搜索以增强信息准确性。适用于代码开发、长文本分析、创意写作及智能问答等多种场景,目前可通过OpenRouter平台免费使用,存在一定请求限制。

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型,支持处理超长文本(超过100万tokens)及多模态输入(图像、视频、文本)。通过分阶段训练提升上下文理解能力,结合动态分块编码器与并行推理技术,实现高效处理长文本和高分辨率图像。模型基于开源数据训练,适用于视频分析、图像识别、长文本生成等场景,性能在多个基准测试中表现突出。