场景 - 智狐AI导航

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 566 浏览

GEN3C

GEN3C是由NVIDIA、多伦多大学和向量研究所联合开发的生成式视频模型，基于点云构建3D缓存，结合精确的相机控制和时空一致性技术，实现高质量视频生成。支持从单视角到多视角的视频创作，具备3D编辑能力，适用于动态场景和长视频生成。在新型视图合成、驾驶模拟、影视制作等领域有广泛应用前景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 356 浏览

GO

GO-1是智元机器人推出的首个通用具身基座模型，采用ViLLA架构，结合多模态大模型与混合专家系统，具备场景感知、动作理解和精细执行能力。支持小样本快速泛化、跨本体部署与持续进化，广泛应用于零售、制造、家庭及科研等领域，推动具身智能技术发展。

AI项目与工具 2025年06月12日 74 点赞 0 评论 297 浏览

子曰翻译2.0

子曰翻译2.0是网易有道推出的最新翻译大模型，通过数据优化、算法升级和严格评估体系，实现翻译质量与效率的显著提升。支持中英互译、专业领域翻译及多场景应用，涵盖学术、医疗、文学等领域，具备高准确性、流畅性和适应性，适用于多种翻译需求。

AI项目与工具 2025年06月12日 93 点赞 0 评论 423 浏览

理想同学网页版

理想同学网页版是一款由理想汽车推出的AI智能助手，集成DeepSeek R1/V3 671B满血版模型，支持多模型切换、联网搜索、图像识别等功能。用户可通过文字、长文本或图片进行交互，支持360°视觉追踪，提升交互体验。适用于办公、学习、多设备协同等场景，支持网页与移动端同步，打造无缝智能服务生态。

AI项目与工具 2025年06月12日 44 点赞 0 评论 290 浏览

MIDI

MIDI是一种基于多实例扩散模型的3D场景生成技术，能将单张2D图像快速转化为高保真度的360度3D场景。它通过智能分割、多实例同步扩散和注意力机制，实现高效的3D建模与细节优化。具有良好的泛化能力，适用于游戏开发、虚拟现实、室内设计及文物数字化等多个领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 415 浏览

咕噜口语SpeakGuru

SpeakGuru是一款由清华团队开发的AI口语练习工具，通过与虚拟人物对话提升英语口语能力。支持中文辅助、语法优化、发音评估等功能，涵盖100+真实场景，适配不同英语水平用户。内置错题本、词汇统计、个性化学习计划等模块，帮助用户全面掌握学习进度。已接入DeepSeek R1模型，提升智能化学习体验。

AI项目与工具 2025年03月17日 78 点赞 0 评论 364 浏览

SpatialLM

SpatialLM 是一款由群核科技推出的开源空间理解多模态模型，能通过分析普通手机拍摄的视频生成详细的 3D 场景布局，涵盖房间结构、家具摆放等信息。它结合大语言模型与点云重建技术，实现空间认知与语义标注，并支持低成本数据采集。该模型适用于具身智能训练、AR/VR、建筑设计等多个领域，具备物理规则嵌入和结构化场景生成能力。

AI项目与工具 2025年06月12日 82 点赞 0 评论 192 浏览

Bolt3D

Bolt3D是由谷歌研究院、牛津大学VGG团队与谷歌DeepMind联合开发的3D场景生成技术，基于潜在扩散模型，能在单块GPU上仅需6.25秒生成高质量3D场景。支持多视角输入，具备良好泛化能力，采用高斯溅射技术实现高保真表示，并支持实时交互。适用于游戏开发、VR/AR、建筑设计和影视制作等领域。

AI项目与工具 2025年06月12日 47 点赞 0 评论 556 浏览

ObjectMover

ObjectMover是由香港大学与Adobe Research联合开发的图像编辑模型，专注于解决物体移动、插入和移除过程中的光影协调问题。通过视频先验迁移和序列到序列建模技术，实现对光照、阴影和遮挡关系的精准控制。支持多任务学习，提升模型在真实场景中的适应性。广泛应用于特效制作、虚拟场景编辑、游戏开发等领域，具备高效、真实的图像编辑能力。

AI项目与工具 2025年06月12日 91 点赞 0 评论 258 浏览

场景

首页

场景

列表

默认

浏览次数

发布日期