多模态 - 智狐AI导航

Optimus

Optimus-1是一款由哈尔滨工业大学（深圳）和鹏城实验室联合开发的智能体框架，专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验，通过混合多模态记忆模块（HDKG与AMEP）提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化，已在游戏、虚拟助理、工业自动化等领域得到验证。

AI项目与工具 2025年06月12日 98 点赞 0 评论 845 浏览

Quasar Alpha

Quasar Alpha是一款预发布AI模型，具备100万token的超大上下文窗口，可高效处理长文本和复杂文档。其在代码生成、指令遵循、多模态处理等方面表现出色，支持联网搜索以增强信息准确性。适用于代码开发、长文本分析、创意写作及智能问答等多种场景，目前可通过OpenRouter平台免费使用，存在一定请求限制。

AI项目与工具 2025年06月12日 96 点赞 0 评论 845 浏览

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型，支持处理超长文本（超过100万tokens）及多模态输入（图像、视频、文本）。通过分阶段训练提升上下文理解能力，结合动态分块编码器与并行推理技术，实现高效处理长文本和高分辨率图像。模型基于开源数据训练，适用于视频分析、图像识别、长文本生成等场景，性能在多个基准测试中表现突出。

AI项目与工具 2025年06月12日 65 点赞 0 评论 845 浏览

Fourier N1

Fourier N1是一款由傅利叶推出的开源人形机器人，具备23个自由度，可完成复杂动作如单足站立、坡道通行和楼梯攀爬。搭载自研控制系统和FSA 2.0执行器，支持高速稳定运行。支持多模态交互，适用于教学、康复辅助、物流搬运、家务服务及灾难救援等领域，提供全面的开源资源以支持开发与研究。

AI项目与工具 2025年06月11日 55 点赞 0 评论 846 浏览

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 848 浏览

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型，具备听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语，主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 849 浏览

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准，用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题，涵盖26个子类别，支持多层次标注和细粒度异常注释，并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现，揭示了这些模型在合成数据检测任务中的优势与不足。

AI项目与工具 2025年06月12日 50 点赞 0 评论 849 浏览

OmniCorpus

OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容，提供了丰富的数据多样性。OmniCorpus不仅规模庞大，而且数据质量高，适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 849 浏览

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架，旨在提升模型对未知视觉内容的理解能力。它通过网络检索，使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色，支持图像描述生成、网络知识搜索、协作生成等功能，可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 850 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 852 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期