空间理解

Oryx

Oryx是一款由清华大学、腾讯和南洋理工大学联合开发的多模态大型语言模型,专为处理视觉数据设计。其核心技术包括预训练的OryxViT模型和动态压缩模块,支持任意分辨率的图像处理及高效的视觉数据压缩。Oryx在空间和时间理解上表现优异,广泛应用于智能监控、自动驾驶、人机交互、内容审核、视频编辑及教育等领域。

SpatialVLA

SpatialVLA是一款由多机构联合研发的空间具身通用操作模型,具备强大的3D空间理解能力与跨平台泛化控制能力。通过Ego3D位置编码和自适应动作网格技术,实现精准的环境感知与动作生成。支持零样本任务执行与快速微调,适用于工业、物流、医疗等多个领域,推动机器人技术的发展与应用。

SpatialLM

SpatialLM 是一款由群核科技推出的开源空间理解多模态模型,能通过分析普通手机拍摄的视频生成详细的 3D 场景布局,涵盖房间结构、家具摆放等信息。它结合大语言模型与点云重建技术,实现空间认知与语义标注,并支持低成本数据采集。该模型适用于具身智能训练、AR/VR、建筑设计等多个领域,具备物理规则嵌入和结构化场景生成能力。