扩散模型

InvSR

InvSR是一款基于扩散模型逆过程开发的图像超分辨率工具,通过深度噪声预测器和灵活采样机制,从低分辨率图像恢复高质量高分辨率图像。它支持多种应用场景,包括文化遗产保护、视频监控、医疗成像及卫星影像分析,同时兼顾计算效率与性能表现。

GPDiT

GPDiT是一种由多所高校和企业联合开发的视频生成模型,结合了扩散模型与自回归模型的优势,具备高质量视频生成、视频表示学习、少样本学习和多任务处理能力。其核心技术包括轻量级因果注意力机制和无参数的旋转基时间条件策略,提升了生成效率与质量。该模型适用于视频创作、编辑、内容理解及创意生成等多种应用场景。

CorrDiff

CorrDiff是NVIDIA开发的生成式AI模型,用于将低分辨率天气数据提升至高分辨率,提升天气预测的精度和效率。采用UNet与扩散模型结合的两步法,显著提升计算速度并降低能耗。支持多变量预测和极端天气模拟,适用于灾害预警和高精度气象分析,具备良好的部署灵活性。

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型,通过逐步细化噪声生成文本,具备快速响应、生成更连贯文本和迭代细化等能力。与传统自回归模型不同,它能并行生成文本,提高效率。在外部基准测试中表现优异,速度更快,适用于内容创作、代码生成、数学问题解答和文本编辑等场景。用户需加入等待名单获取访问权限。

OneDiffusion

OneDiffusion是一种多功能的大规模扩散模型,支持文本到图像生成、条件图像生成、图像理解等多种任务。它通过序列建模和流匹配框架实现灵活的图像生成能力,适用于艺术创作、广告设计、游戏开发等多个领域,具备高度的扩展性和统一性。

InstantID

InstantID 是一种基于扩散模型的图像生成技术,专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。该技术允许用户仅使用一张面部图像,在多种风格中生成个性化的图像,同时确保高保真度。其主要功能包括个性化图像合成、身份特征保留、风格迁移、新视角合成、身份插值和多身份合成。InstantID 兼容预训练模型,无需额外微调即可实现灵活的图像生成。

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制,在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑,实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性,支持实时编辑,并在文本引导下的图像编辑方面表现出色。

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型,基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列,通过掩码处理和去噪生成高质量音频,保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能,具有非自回归特性,提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

SNOOPI

SNOOPI是一种基于增强单步扩散模型的文本到图像生成框架,通过PG-SB和NASA技术提高了模型的稳定性和控制力。它在多方面表现出色,包括提高生成效率、排除不期望的图像元素、支持多种模型背板以及生成高质量图像。SNOOPI广泛应用于数字艺术、游戏开发、广告、社交媒体和影视等领域。

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架,基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能,具有高效处理能力(单张图像约9秒)。采用LoRA-MoE混合微调策略,降低资源需求,适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验,便于研究与应用。