推理

Amodal3R

Amodal3R 是一种基于条件的 3D 生成模型,能够从部分遮挡的 2D 图像中重建完整的 3D 模型。通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,提升了遮挡场景下的重建精度。该模型仅使用合成数据训练,却能在真实场景中表现出色,具有较强的泛化能力。广泛应用于 AR/VR、机器人视觉、自动驾驶及 3D 资产创建等领域。

Kimi学术搜索

Kimi学术搜索是一款基于人工智能技术的学术研究辅助工具,通过深度推理、信息整合及实时交互等功能,帮助用户高效地获取学术资源。其主要特点包括多语言支持、自我评估改进机制以及对复杂任务的精准响应能力,广泛应用于学术研究、市场分析、学习辅导和技术支持等领域。

NVLM

NVLM是NVIDIA研发的多模态大型语言模型,涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构(NVLM-D、NVLM-X、NVLM-H),并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术,广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

千川AI

通过使用自然语言处理(NLP)技术,AI可以理解给定内容的上下文、语气和意图,并生成相关且吸引人的书面输出。

燧原科技

提供原始创新、具备自主知识产权的AI加速卡、系统集群和软硬件解决方案

奇妙问

奇妙问平台通过提供一站式的交互数字人解决方案,帮助企业在不同行业场景下实现数字化转型,提升服务效率和客户满意度。

360gpt2

360gpt2-o1是一款专注于数学与逻辑推理的人工智能大模型,具备强大的推理能力和深度学习能力。它通过合成数据优化、分阶段训练及“慢思考”范式提升了模型的表现,尤其在数学竞赛和基础数学评测中成绩显著。此外,模型还支持编程问题解决、复杂问题分析及教育领域应用,为企业决策提供逻辑支持。

Fox

Fox-1是一系列由TensorOpera开发的小型语言模型,基于大规模预训练和微调数据,具备强大的文本生成、指令遵循、多轮对话和长上下文处理能力。该模型在多个基准测试中表现出色,适用于聊天机器人、内容创作、语言翻译、教育辅助和信息检索等多种应用场景。

CosyVoice 2.0

CosyVoice 2.0是一款基于深度学习的语音生成大模型,通过有限标量量化技术和新型架构设计,在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理,延迟低至150ms,广泛应用于智能助手、有声读物、视频配音及语言学习等领域,同时具备多语言支持和情感控制等功能。

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面(GUI)的智能代理模型,具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则,即可实现端到端的GUI任务自动化,适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术,支持高效的界面交互与精准的视觉定位。