多模态推理

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。

从容大模型

从容大模型是云从科技推出的多模态AI模型,在国际评测中表现优异,具备视觉语言理解与推理能力。其核心技术包括多模态对齐、高效工程优化和原生多模态推理,支持复杂场景下的文本识别和开放域问答。该模型在医学健康、金融、制造、政务等多个领域实现规模化应用,助力智能化转型。

Agentic Object Detection

Agentic Object Detection是由吴恩达团队研发的新型目标检测技术,通过智能代理系统实现无需标注数据的目标识别。用户输入文字提示后,AI可精准定位图像中的目标及其属性,支持内在属性、上下文关系及动态状态的识别。该技术无需复杂训练流程,适用于装配验证、作物检测、医疗影像分析、危险物品识别和商品管理等多种场景,显著提升了检测效率和准确性。

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型,具备强大的视觉链式推理能力,可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法,在多项基准测试中表现优异。模型开源,适用于教育、医疗、科研、内容审核等多个领域,推动多模态人工智能的发展。