多模态模型

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架，涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域，包含1,130个问题，每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标，全面衡量模型推理能力，并揭示当前模型在反思机制和感知任务上的不足，为模型优化和研究提供重要参考。

AI项目与工具 2025年06月12日 36 点赞 0 评论 787 浏览

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器，通过结合局部与全局token，提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息，增强细节感知能力。在多个基准测试中表现优异，尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略，提高模型泛化能力，适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

AI项目与工具 2025年06月12日 38 点赞 0 评论 787 浏览

EliGen

EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架，采用区域注意力机制实现对图像中实体的精确控制，支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练，具备强大泛化能力，适用于虚拟场景、角色设计、数据合成及产品展示等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 782 浏览

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准，用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题，涵盖26个子类别，支持多层次标注和细粒度异常注释，并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现，揭示了这些模型在合成数据检测任务中的优势与不足。

AI项目与工具 2025年06月12日 50 点赞 0 评论 780 浏览

Step1X

Step1X-Edit 是由阶跃星辰团队推出的通用图像编辑框架，结合多模态大语言模型与扩散模型，支持多样化的图像编辑任务，如主体修改、背景更换、风格转换等。用户可通过自然语言指令进行操作，系统能精准理解并生成高质量图像。该工具基于大规模数据集训练，具备强大的真实场景适应能力，适用于创意设计、影视制作、社交媒体等多个领域。

AI项目与工具 2025年06月11日 81 点赞 0 评论 773 浏览

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型，支持处理超长文本（超过100万tokens）及多模态输入（图像、视频、文本）。通过分阶段训练提升上下文理解能力，结合动态分块编码器与并行推理技术，实现高效处理长文本和高分辨率图像。模型基于开源数据训练，适用于视频分析、图像识别、长文本生成等场景，性能在多个基准测试中表现突出。

AI项目与工具 2025年06月12日 65 点赞 0 评论 764 浏览

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 754 浏览

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型（MLLMs），能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能，并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外，OpenEMMA支持人类可读的输出，适用于多种驾驶环境，包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

AI项目与工具 2025年06月12日 36 点赞 0 评论 751 浏览

基石智算

基石智算是青云科技推出的AI算力云服务平台，支持多种异构算力资源的统一调度与管理，具备弹性扩容、分布式任务调度、一站式AI开发及模型部署等功能。平台适用于AI模型训练、高性能计算、数据科学分析及模型推理等多种场景，提供灵活的服务模式和全面的资源监控与管理能力，助力用户高效开展人工智能相关工作。

AI项目与工具 2025年06月11日 49 点赞 0 评论 746 浏览

HealthGPT

HealthGPT是由多家高校与企业联合开发的医学视觉语言模型，支持医学图像分析、视觉问答、文本生成及多模态融合等任务。其核心技术包括异构低秩适应（H-LoRA）、分层视觉感知（HVP）和三阶段学习策略（TLS），可高效处理复杂医疗数据。模型适用于医学诊断、教育、研究及健康管理等多个场景，具有良好的适应性和实用性。

AI项目与工具 2025年06月12日 80 点赞 0 评论 739 浏览

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期

MME