MSQA(Multi-modal Situated Question Answering)是一项专注于大规模多模态情境推理的数据集,旨在提升具身AI代理在三维场景中的理解与推理能力。该数据集包含251,000个问答对,涵盖9个问题类别,基于3D场景图及视觉-语言模型从真实世界场景中采集。通过融合文本、图像和点云等多模态输入,MSQA有效减少了单模态输入可能带来的歧义。此外,MSQA还引入了MSNN(Multi-modal Next-step Navigation)基准测试,用于评估模型在情境间导航的表现,从而推动更强大的情境推理模型的研发,并促进3D场景理解技术的进步。
发表评论 取消回复