扩散模型 - 智狐AI导航

I2VEdit

I2VEdit是一款基于图像到视频扩散模型的先进视频编辑框架，通过首帧编辑实现全视频效果传播。它能够保持视频的时间和运动一致性，支持局部与全局编辑任务，包括更换对象、风格转换等，并广泛应用于社交媒体内容创作、视频后期制作、虚拟试穿等领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 715 浏览

IterComp

IterComp是一种基于迭代反馈学习机制的文本到图像生成框架，由多所顶尖高校的研究团队联合开发。它通过整合多个开源扩散模型的优势，利用奖励模型和迭代优化策略，显著提升了生成图像的质量和准确性，尤其在多类别对象组合与复杂语义对齐方面表现突出，同时保持较低的计算开销。IterComp适用于艺术创作、游戏开发、广告设计、教育和媒体等多个领域。

AI项目与工具 2025年06月12日 31 点赞 0 评论 716 浏览

UniVG

百度公司推出的视频生成模型，能够以文本和图像的任意组合作为输入条件进行视频生成。

Ai开源项目 2025年06月05日 22 点赞 0 评论 718 浏览

HoloTime 是由北京大学深圳研究生院与鹏城实验室联合开发的全景 4D 场景生成框架，可将单张全景图像转化为动态视频，并进一步重建为沉浸式 4D 场景。其核心技术包括全景动画生成器（Panoramic Animator）和时空重建技术，结合 360World 数据集进行训练，实现高质量的视频生成与场景重建。该工具支持 VR/AR 应用，适用于虚拟旅游、影视制作、游戏开发等多个领域，提供高效的沉

AI项目与工具 2025年06月11日 20 点赞 0 评论 719 浏览

VPP

VPP（Video Prediction Policy）是清华大学与星动纪元联合开发的AIGC机器人模型，基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习，显著降低对真实数据的依赖。在复杂任务中表现出色，适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

AI项目与工具 2025年06月11日 61 点赞 0 评论 720 浏览

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法，用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下，通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景，包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

AI项目与工具 2025年06月12日 61 点赞 0 评论 721 浏览

VASA

VASA-1是一个由微软亚洲研究院开发的生成框架，能够将静态照片转化为动态的口型同步视频。该框架利用精确的唇音同步、丰富的面部表情和自然的头部运动，创造出高度逼真的虚拟人物形象。VASA-1支持在线生成高分辨率视频，具有低延迟的特点，并且能够处理多种类型的输入，如艺术照片、歌唱音频和非英语语音。此外，通过灵活的生成控制，用户可以调整输出的多样性和适应性。

AI项目与工具 2025年06月12日 83 点赞 0 评论 722 浏览

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具，可生成高质量、自然的说话人头部视频。支持多信号控制（如音频、表情），采用并行 Mamba 结构和门控机制，实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异，适用于虚拟主播、远程会议、在线教育等多种场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 724 浏览

MotionCanvas

MotionCanvas是一种图像到视频生成工具，能将静态图像转化为动态视频。它提供相机与物体运动的联合控制，支持复杂轨迹设计和局部运动调整，具备3D感知能力，可生成高质量长视频。适用于电影制作、动画创作、VR/AR、游戏开发及教育等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 726 浏览

DIAMOND

DIAMOND是一款基于扩散模型的强化学习代理，专注于模拟复杂环境以支持代理的学习与决策。它在Atari游戏和3D环境中表现出色，能够捕捉丰富的视觉信息。通过连续潜在变量和优化的去噪步骤，DIAMOND提升了模型的稳定性和效率。其应用场景涵盖游戏AI开发、机器人技术、虚拟现实、教育培训及科学研究等领域。

AI项目与工具 2025年06月12日 62 点赞 0 评论 727 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期