扩散模型 - 智狐AI导航

GameNGen

GameNGen是谷歌推出的一款AI游戏引擎，它能够以每秒20帧的速度实时生成高质量的DOOM游戏画面，使大多数玩家难以分辨真假。该工具无需编程，简化了开发流程，同时具备高逼真度和交互式体验，为游戏创作提供了新的可能性。除了游戏开发，它还能应用于虚拟现实、自动驾驶等多个领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 66 点赞 0 评论 476 浏览

DistriFusion是一个专为加速高分辨率扩散模型在多GPU环境中生成图像的分布式并行推理框架。通过将图像分割成多个小块并分配至不同设备上进行独立处理，它能够在不增加额外训练负担的情况下，将推理速度提升高达六倍，同时保持图像质量。其技术原理包括Patch Parallelism（分片并行）、异步通信、位移补丁并行性等，适用于多种现有的扩散模型。应用场景包括AI艺术创作、游戏和电影制作、VR/A

AI项目与工具 2025年06月12日 50 点赞 0 评论 568 浏览

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制，在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑，实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性，支持实时编辑，并在文本引导下的图像编辑方面表现出色。

AI项目与工具 2025年06月12日 75 点赞 0 评论 814 浏览

FancyVideo

FancyVideo是一款由360公司与中山大学合作开发的AI文生视频模型，采用创新的跨帧文本引导模块（CTGM）。它能够根据文本描述生成连贯且动态丰富的视频内容，支持高分辨率视频输出，并保持时间上的连贯性。作为开源项目，FancyVideo提供了详尽的文档和代码库，便于研究者和开发者深入研究和应用。主要功能包括文本到视频生成、跨帧文本引导、时间信息注入及时间亲和度细化等。

AI项目与工具 2025年06月12日 28 点赞 0 评论 637 浏览

Diffutoon

Diffutoon是一款基于扩散模型的AI框架，旨在将现实风格的视频转换为动漫风格。该框架支持高分辨率视频处理，能够实现风格化、一致性增强、结构引导和自动着色等功能。此外，Diffutoon具备内容编辑功能，用户可通过文本提示调整视频细节，确保视觉效果和内容的一致性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 781 浏览

Unique3D

Unique3D是一款由清华大学团队开发的开源框架，专注于单张图像到3D模型的转换。它利用多视图扩散模型和法线扩散模型，结合多级上采样策略和ISOMER算法，能够在短时间内生成高保真度且纹理丰富的3D网格模型。Unique3D能够从单个2D图像生成3D网格模型、多个正交视图图像和法线贴图，并通过多级上采样过程提高图像分辨率，最终实现颜色和几何细节的高度整合。

AI项目与工具 2025年06月12日 28 点赞 0 评论 704 浏览

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

DeepMind推出的V2A（Video-to-Audio）模型能够将视频内容与文本提示相结合，生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作，还能与其他视频生成模型，如Sora、可灵或Gen 3等，进行集成，从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

AI项目与工具 2025年06月12日 21 点赞 0 评论 544 浏览

混元DiT

混元DiT（Hunyuan-DiT）是腾讯混元团队开源的高性能文本到图像的扩散Transformer模型，具备细粒度的中英文理解能力，能够生成多分辨率的高质量图像。该模型结合了双语CLIP和多语言T5编码器，通过精心设计的数据管道进行训练和优化。混元DiT的主要功能包括双语文本到图像生成、细粒度中文元素理解、长文本处理能力、多尺寸图像生成、多轮对话和上下文理解、高一致性和艺术性。此外，混元DiT在

AI项目与工具 2024年01月01日 64 点赞 0 评论 648 浏览

AniTalker

AniTalker是一款先进的AI工具，能将单张静态人像与音频同步转化为生动的动画对话视频。它通过自监督学习捕捉面部动态，采用通用运动表示和身份解耦技术减少对标记数据的依赖，同时结合扩散模型和方差适配器生成多样且可控的面部动画。AniTalker支持视频驱动和语音驱动两种方式，并具备实时控制动画生成的能力。

AI项目与工具 2025年06月12日 62 点赞 0 评论 854 浏览

IDM

IDM-VTON是一种基于改进扩散模型的先进AI虚拟试穿技术，由韩国科学技术院和OMNIOUS.AI的研究人员共同开发。该技术利用视觉编码器提取服装的高级语义信息，并通过GarmentNet捕捉服装的低级细节特征，从而生成逼真的人物穿戴图像。IDM-VTON支持文本提示理解，实现了个性化定制和逼真的试穿效果，广泛应用于电子商务、时尚零售、个性化推荐、社交媒体以及时尚设计等领域。

AI项目与工具 2024年01月01日 49 点赞 0 评论 670 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期