扩散模型

LatentSync

LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需中间3D或2D表示,可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法,提升视频时间一致性,并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。

AniPortrait

AniPortrait是一款由腾讯开源的AI视频生成框架,通过音频和一张参考肖像图片生成高质量的动画。该框架包含两个核心模块:Audio2Lmk模块将音频转换为2D面部标记点,而Lmk2Video模块则基于这些标记点生成连贯且逼真的视频动画。AniPortrait以其高质量的视觉效果、时间一致性和灵活的编辑能力著称,能够精确捕捉面部表情和嘴唇动作。

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术,通过提取响度、亮度和音高概率等控制信号,结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架,同时赋予声音设计师更强的表达力与可控性,广泛适用于电影、游戏、音乐制作及教育等多个领域。

JoyVASA

JoyVASA是一个基于扩散模型的音频驱动数字人头项目,能够生成与音频同步的面部动态和头部运动。其主要功能包括唇形同步、表情控制及动物面部动画生成,支持多语言和跨物种动画化。项目采用两阶段训练方法,结合解耦面部表示与扩散模型技术,生成高质量动画视频,广泛应用于虚拟助手、娱乐媒体、教育、广告等多个领域。

Animate Anyone

Animate Anyone是一款由阿里巴巴智能计算研究院开发的开源框架,旨在将静态图像中的角色或人物动态化。它采用扩散模型,结合ReferenceNet、Pose Guider姿态引导器和时序生成模块等技术,确保输出的动态视频具有高度一致性和稳定性。该框架支持多种应用,包括角色动态化、时尚视频合成及人类舞蹈生成,用户可通过GitHub或Hugging Face社区轻松体验。

OutofFocus

OutofFocus是一款基于AI的图像编辑工具,支持文本提示驱动的图像生成与编辑。其核心功能包括风格转换、内容填充、图像修复和增强等,通过自然语言处理与扩散逆过程重建技术实现高效编辑。该工具具有易用性和灵活性,广泛适用于艺术创作、内容营销、教育研究等多个领域。

GenCast

GenCast是一款基于扩散模型的AI气象预测工具,可提供长达15天的高精度全球天气预报,尤其擅长预测极端天气事件。它采用0.25°纬度-经度分辨率生成高精度集合预报,并通过并行计算在8分钟内完成预测。GenCast已开源,支持学术界和行业用户进一步研究与应用。

Wonderland

Wonderland是一项由多伦多大学、Snap和UCLA联合开发的技术,能够基于单张图像生成高质量的3D场景,并支持精确的摄像轨迹控制。它结合了视频扩散模型和大规模3D重建模型,解决了传统3D重建技术中的视角失真问题,实现了高效的三维场景生成。Wonderland在多个基准数据集上的3D场景重建质量均优于现有方法,广泛应用于建筑设计、虚拟现实、影视特效、游戏开发等领域。

Fashion

Fashion-VDM是一款由谷歌和华盛顿大学合作研发的虚拟试穿技术,利用视频扩散模型生成人物穿着指定服装的高质量试穿视频,具有高保真度、时间一致性及强大的服装细节还原能力。它结合了扩散模型架构、分割分类器自由引导与渐进式时间训练策略,并在图像与视频数据联合训练的基础上实现了高效稳定的视频生成过程。