3D

DiffSplat

DiffSplat是一款高效的3D生成工具,能够根据文本或图像快速生成高质量的3D高斯点云。它基于预训练的文本到图像扩散模型,结合2D先验知识和3D渲染损失机制,确保生成内容在多视角下保持一致。支持文本、图像或组合输入,具备可控生成能力,适用于3D内容创作、图像重建及多种下游应用。

Edify 3D

Edify 3D 是 NVIDIA 推出的一款高效3D资产生成工具,能够从文本或图像输入快速生成高质量的3D模型。其主要功能包括支持文本到3D、图像到3D的转换,生成高分辨率纹理与 PBR 材质,并具备快速生成、UV贴图和材质图生成等特性。该工具通过多视图扩散模型、Transformer 模型及跨视图注意力机制实现精准建模,适用于游戏开发、虚拟现实、影视制作及建筑可视化等多个领域。

CAVIA

CAVIA是一款由苹果、得克萨斯大学奥斯汀分校和谷歌联合研发的多视角视频生成框架。它通过单一输入图像生成多个时空一致的视频序列,并采用视角集成注意力模块增强视频的一致性和连贯性,支持用户精准控制相机运动。此外,CAVIA利用多种数据源进行联合训练,优化生成视频的质量和真实感,在虚拟现实、增强现实以及电影制作等领域具有重要价值。

MeshPad

MeshPad 是一款基于草图输入的交互式 3D 网格生成与编辑工具,可将二维草图快速转化为高质量三维模型并支持实时修改。采用三角形序列表示和 Transformer 模型,实现高效、精准的网格生成与调整。通过推测性预测策略,提升计算效率,缩短编辑时间。生成的网格在精度上优于现有方法,适用于艺术设计、建筑设计和工业设计等多个领域。

One Shot, One Talk

One Shot, One Talk是一项由中国科学技术大学和香港理工大学研究者开发的图像生成技术,它可以从单张图片生成具有个性化细节的全身动态说话头像。该工具支持逼真的动画效果,包括自然的表情变化和生动的身体动作,同时具备对新姿势和表情的泛化能力。One Shot, One Talk结合了姿势引导的图像到视频扩散模型和3DGS-mesh混合头像表示技术,提供了精确的控制能力和高质量的重建效果。

CineMaster

CineMaster是快手推出的3D感知视频生成框架,支持通过文本提示及深度图、相机轨迹等控制信号生成高质量视频内容。其核心功能包括3D物体与摄像机控制、交互式设计、自动化数据标注和高质量视频输出。采用两阶段工作流程与扩散模型技术,结合语义布局控制网络与摄像机适配器,提升视频生成的精确度与灵活性。适用于影视制作、广告营销、游戏开发等多个领域。

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs),能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能,并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外,OpenEMMA支持人类可读的输出,适用于多种驾驶环境,包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

紫东太初大模型

紫东太初,中科院自动化所和武汉人工智能研究院推出新一代大模型,从三模态走向全模态,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。

Direct3D

Direct3D-S2是由南京大学、DreamTech、复旦大学和牛津大学联合开发的高分辨率3D生成框架,基于稀疏体积表示和空间稀疏注意力(SSA)机制,提升扩散变换器(DiT)的计算效率并降低训练成本。该框架包含全端到端的稀疏SDF变分自编码器(SS-VAE),支持多分辨率训练,在1024³分辨率下仅需8个GPU即可训练。Direct3D-S2能够从图像生成高分辨率3D形状,具有精细几何细节和高

Kiss3DGen

Kiss3DGen是一款基于2D扩散模型的3D资产生成框架,通过“3D Bundle Image”结构实现多视角图像与法线图的融合,从而高效生成和编辑3D模型。它支持文本与图像输入,具备3D编辑、网格优化和纹理增强等功能,适用于游戏开发、影视制作、VR/AR、数字孪生及教育等多个领域。