扩散模型 - 智狐AI导航

Pix2Gif

Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型，能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成，并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制，确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。

AI项目与工具 2024年01月01日 30 点赞 0 评论 750 浏览

HiCo

HiCo是一款基于扩散模型的层次化可控布局到图像生成工具，采用多分支结构设计，能够精确控制对象的位置和文本描述，解决复杂布局中的常见问题。该工具支持高分辨率图像生成，兼容多种快速生成插件，并在多目标布局生成任务中表现出色，适用于图像编辑、游戏设计、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 749 浏览

MagicMan

MagicMan是由多个顶尖研究机构联合开发的AI工具，主要功能是从单张2D图像生成高质量的3D人类模型。它结合了预训练的2D扩散模型和参数化的SMPL-X模型，并通过混合多视角注意力机制和迭代细化策略，实现精确的3D感知和图像生成。MagicMan在游戏、电影、虚拟现实、时尚、零售和教育等多个领域有广泛应用，能够显著提高角色设计的真实感和多样性。

AI项目与工具 2025年06月12日 55 点赞 0 评论 746 浏览

谛韵DiffRhythm

DiffRhythm（谛韵）是一款由西北工业大学与香港中文大学（深圳）联合开发的端到端音乐生成工具，基于潜扩散模型技术，能在10秒内生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示，即可快速获得高质量音乐作品。其支持多语言输入，具备歌词对齐、风格定制、非自回归生成等技术优势，广泛应用于音乐创作、影视配乐、教育及个人创作等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 746 浏览

Kandinsky

Kandinsky-3是一款基于潜在扩散模型的文本到图像生成框架，支持文本到图像生成、图像修复、图像融合、文本-图像融合、图像变化生成及视频生成等多种功能。其核心优势在于简洁高效的架构设计，能够快速生成高质量图像并提升推理效率。

AI项目与工具 2025年06月12日 84 点赞 0 评论 742 浏览

Ingredients

Ingredients是一款基于多身份图像与视频扩散Transformer的视频生成框架，支持多身份特征的高效整合与动态分配。其核心模块包括面部提取器、多尺度投影器和ID路由器，能够保持身份一致性并生成高质量视频内容。无需额外训练即可实现个性化视频制作，适用于娱乐、广告、教育等多个领域。

AI项目与工具 2025年06月12日 49 点赞 0 评论 741 浏览

SynthLight

SynthLight是由耶鲁大学与Adobe Research联合开发的基于扩散模型的人像重照明工具，通过物理渲染引擎生成合成数据并结合多任务训练策略，实现高质量的光照效果生成。它能够根据环境光照图重新渲染人像，生成自然的高光、阴影和漫反射效果，并适用于摄影后期、虚拟场景、游戏开发及广告设计等多个领域，具备良好的泛化能力和实用性。

AI项目与工具 2025年06月12日 73 点赞 0 评论 740 浏览

VideoDrafter

一个高质量视频生成的开放式扩散模型，相比之前的生成视频模型，VideoDrafter最大的特点是能在主体不变的基础上，一次性生成多个场景的视频。

Ai开源项目 2025年06月05日 89 点赞 0 评论 738 浏览

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架，结合大型语言模型与视频扩散模型，实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入，精确控制摄像机运动轨迹，具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果，并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域，提高视频创作效率与质量。

AI项目与工具 2025年06月12日 18 点赞 0 评论 737 浏览

AvatarGO

AvatarGO是由南洋理工大学、上海AI Lab和香港大学联合开发的AI框架，能够根据文本描述生成高质量的4D人体与物体交互场景。其核心在于利用LLM引导的接触重定位、空间感知的分数蒸馏采样和运动优化技术，实现精确的接触识别与动画生成，有效解决穿透问题。支持多种人物与物体组合，适用于虚拟导购、展厅讲解、VR/AR内容创作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 736 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期