MSQA

简介：MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集，支持文本、图像和点云等多种数据形式，旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务，该工具不仅能够评估模型性能，还能促进具身AI和3D场景理解领域的研究进展。同时，它为开发更强大的情境推理模型提供了丰富的预训练资源。

AI小编 622 阅读 0 评论 80 点赞

官网地址

MSQA（Multi-modal Situated Question Answering）是一项专注于大规模多模态情境推理的数据集，旨在提升具身AI代理在三维场景中的理解与推理能力。该数据集包含251,000个问答对，涵盖9个问题类别，基于3D场景图及视觉-语言模型从真实世界场景中采集。通过融合文本、图像和点云等多模态输入，MSQA有效减少了单模态输入可能带来的歧义。此外，MSQA还引入了MSNN（Multi-modal Next-step Navigation）基准测试，用于评估模型在情境间导航的表现，从而推动更强大的情境推理模型的研发，并促进3D场景理解技术的进步。

本文分类：AI项目与工具
本文标签：多模态情境推理 3D场景理解具身AI 数据集基准测试导航能力点云视觉-语言模型自动驾驶
浏览次数：622 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://www.sihangdaima.com/AIxiangmuyugongju/10407.html

评论列表共有 0 条评论

暂无评论

MSQA

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复