Bolt3D是什么
Bolt3D是由谷歌研究院、牛津大学VGG团队以及谷歌DeepMind联合开发的一种新型3D场景生成技术,属于潜在扩散模型的一种。该技术能够在单块GPU上,仅需不到7秒的时间,直接从一张或多张图像中生成3D场景表示。在英伟达H100 GPU上,Bolt3D可在6.25秒内将照片转化为完整的三维场景。
Bolt3D的主要功能
- 快速生成3D场景:Bolt3D采用前馈式生成方法,可直接从输入图像中采样出3D场景表示,具备极高的生成效率,在单块GPU上仅需6.25秒即可完成。
- 多视角输入与泛化能力:支持单视图至多视图的输入处理,能够生成未被观测区域的内容,展现出良好的泛化性能。
- 高保真3D场景表示:基于高斯溅射(Gaussian Splatting)技术构建3D场景,通过二维网格中的三维高斯函数存储位置、颜色、透明度等信息,确保生成结果的高质量。
- 实时交互与应用:用户可在浏览器中实时查看和渲染生成的3D场景,适用于游戏开发、虚拟现实、增强现实、建筑设计及影视制作等多个领域。
Bolt3D的技术原理
- 几何多视角潜在扩散模型:通过训练多视图潜在扩散模型,联合建模图像与3D点图,学习捕捉目标图像、点图与源视图点图的联合分布。
- 几何VAE:将单视图点图与相机射线图联合编码为几何潜在特征,通过最小化标准VAE目标和特定几何损失进行优化。
- 高斯头部模型:根据相机参数和生成的图像与点图,输出存储在散点图像中的3D高斯的细化颜色、不透明度和协方差矩阵。
- 大规模多视图一致数据集:为训练Bolt3D,构建了包含大量多视图一致数据的3D几何与外观数据集。
- 三阶段训练过程:首先训练几何变分自编码器(Geometry VAE),随后训练高斯头部模型,最后训练潜在扩散模型。
Bolt3D的项目地址
Bolt3D的应用场景
- 游戏开发:加速3D场景生成,降低开发成本。
- 虚拟现实与增强现实:提供实时3D场景生成能力,提升用户体验。
- 建筑设计:快速创建建筑3D模型,便于设计展示。
- 影视制作:用于特效制作,实现复杂场景的高效生成。
发表评论 取消回复