扩散模型 - 智狐AI导航

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架，通过轨迹分割一致性蒸馏（TSCD）、人类反馈学习（ReFL）和分数蒸馏等技术，显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时，大幅减少了推理步骤，实现了快速生成高分辨率图像，推动了生成式AI技术的发展。

AI项目与工具 2025年06月12日 73 点赞 0 评论 510 浏览

VASA

VASA-1是一个由微软亚洲研究院开发的生成框架，能够将静态照片转化为动态的口型同步视频。该框架利用精确的唇音同步、丰富的面部表情和自然的头部运动，创造出高度逼真的虚拟人物形象。VASA-1支持在线生成高分辨率视频，具有低延迟的特点，并且能够处理多种类型的输入，如艺术照片、歌唱音频和非英语语音。此外，通过灵活的生成控制，用户可以调整输出的多样性和适应性。

AI项目与工具 2025年06月12日 83 点赞 0 评论 722 浏览

AniPortrait

AniPortrait是一款由腾讯开源的AI视频生成框架，通过音频和一张参考肖像图片生成高质量的动画。该框架包含两个核心模块：Audio2Lmk模块将音频转换为2D面部标记点，而Lmk2Video模块则基于这些标记点生成连贯且逼真的视频动画。AniPortrait以其高质量的视觉效果、时间一致性和灵活的编辑能力著称，能够精确捕捉面部表情和嘴唇动作。

AI项目与工具 2025年06月12日 68 点赞 0 评论 889 浏览

DreaMoving是一个基于扩散模型的人类视频生成框架，由阿里巴巴集团研究团队开发。该框架通过视频控制网络（Video ControlNet）和内容引导器（Content Guider）实现对人物动作和外观的精确控制，允许用户通过文本或图像提示生成个性化视频内容。其主要功能包括定制化视频生成、高度可控性、身份保持、多样化的输入方式以及易于使用的架构设计。DreaMoving广泛应用于影视制作、游

AI项目与工具 2024年01月01日 93 点赞 0 评论 552 浏览

Champ

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同开发的一款基于3D的AI工具，能够将人物图片转换为高质量的视频动画。Champ通过结合3D参数化模型和潜在扩散模型，精准捕捉和再现人体的3D形态和动态，保证动画的连贯性和视觉逼真度。此外，Champ还支持跨身份动画生成，并能与文本生成图像模型结合，使用户可以根据文本描述生成特定的角色外观和动作。

AI项目与工具 2024年01月01日 81 点赞 0 评论 768 浏览

BrushNet

BrushNet是一款基于扩散模型的图像修复工具，采用双分支架构处理遮罩区域。它能够实现像素级修复，保持修复区域与原始图像的一致性和高质量。BrushNet适用于多种场景和风格的图像，包括人类、动物、室内和室外场景，以及自然图像、铅笔画、动漫、插画和水彩画等。通过与预训练扩散模型结合，BrushNet提供灵活的修复控制，同时保留未遮罩区域的细节。

AI项目与工具 2024年01月01日 55 点赞 0 评论 641 浏览

Stable Video 3D (SV3D)

Stable Video 3D（SV3D）是一款由Stability AI公司开发的多视角合成和3D生成模型，能够从单张图片生成一致的多视角图像，并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进，提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展，能够生成逼真且一致的视图，提升

AI项目与工具 2024年01月01日 39 点赞 0 评论 582 浏览

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI项目与工具 2024年01月01日 12 点赞 0 评论 768 浏览

Pix2Gif

Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型，能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成，并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制，确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。

AI项目与工具 2024年01月01日 30 点赞 0 评论 750 浏览

ELLA

ELLA（Efficient Large Language Model Adapter）是一种由腾讯研究人员开发的方法，旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器（TSC），动态提取预训练大型语言模型（LLM）中的时序依赖条件，从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练，可以直接应用于预训练的LLM和U-Net模型，且能与现有模型和工具无缝集成，显著提升

AI项目与工具 2024年01月01日 74 点赞 0 评论 553 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期