一致性

HouseCrafter

HouseCrafter是一款基于2D扩散模型的AI工具,可将平面图自动转换为高质量的3D室内场景。它具备多视图图像生成、全局一致性保障及用户交互编辑等功能,广泛应用于建筑设计、室内设计、房地产营销等领域,有效提升了虚拟环境创建的效率与准确性。

sCM

sCM是一种由OpenAI开发的基于扩散模型的连续时间一致性模型,通过简化理论框架与优化采样流程,实现了图像生成速度的大幅提升。该模型仅需两步采样即可生成高质量图像,且速度比传统扩散模型快50倍。得益于连续时间框架和多项技术改进,sCM不仅提高了训练稳定性,还提升了生成质量。其应用场景广泛,包括视频生成、3D建模、音频处理及跨媒介内容创作,适用于艺术设计、游戏开发、影视制作等多个行业。

Edicho

Edicho 是一种基于扩散模型的图像编辑工具,能够在多图像间实现一致性编辑,无需额外训练。其核心技术包括 Corr-Attention 注意力模块和 Corr-CFG 去噪策略,通过显式图像对应关系提升编辑质量与一致性。适用于图像修复、风格转换、内容创作、医学影像增强等场景,具备良好的兼容性与扩展性。

DemoFusion

DemoFusion是一个技术框架,旨在低成本生成高分辨率图像。该框架通过扩展现有的开源生成人工智能模型(如Stable Diffusion),使得这些模型能够在不进行额外训练和不产生过高内存需求的情况下,将模糊的低分辨率图像转化为高清晰度图像。DemoFusion采用渐进式增强、跳跃残差和扩张采样机制,确保高分辨率图像生成的同时,保持图像的全局语义一致性和细节质量。适用于艺术创作、游戏开发、电影

WorldScore

WorldScore是由斯坦福大学推出的统一世界生成模型评估基准,支持3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种模态。它从可控性、质量和动态性三个维度进行评估,涵盖3000个测试样本,包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能,适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用,为研究

PGTFormer

PGTFormer是一款先进的视频人脸修复框架,通过解析引导的时间一致性变换器恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,通过语义解析选择最佳人脸先验,并结合时空Transformer模块和时序保真度调节器,实现了高效且自然的修复效果。其主要功能包括盲视频人脸修复、语义解析引导、时间一致性增强、时空特征提取、端到端修复和时序保真度调节。PGTFormer适用于电影和视频制作、视频

SketchVideo

SketchVideo是一款基于草图和文本提示的视频生成与编辑框架,由多所高校与企业联合研发。它利用DiT模型和草图控制网络,实现对视频内容的精细控制,支持动态调整与细节保留。该工具适用于多种场景,如影视制作、教育、游戏开发等,具备高效生成与高质量输出能力。

AnimateAnything

AnimateAnything是一项由浙江大学与北京航空航天大学联合研发的统一可控视频生成技术。它能够根据相机轨迹、文本提示及用户动作注释等多样化控制信号生成高质量视频,并通过多尺度特征融合网络将这些信号转化为逐帧光流进行精准引导。此外,为解决大范围运动带来的视频闪烁问题,该技术采用了基于频率的稳定模块,显著增强了视频的时间稳定性。主要应用于影视制作、虚拟现实、游戏开发以及教育培训等多个领域。

FLUX

FLUX-Controlnet-Inpainting是一款基于ControlNet和FLUX.1-dev技术的图像修复工具,能够通过用户指定的掩码区域对图像进行精准修复。其主要特点包括风格一致性、边缘和结构保持、高质量生成以及参数可调性。工具广泛应用于历史照片修复、艺术创作、媒体娱乐、广告营销、数据增强及医学成像等领域。

VideoAgent

VideoAgent是一款基于自改进机制的视频生成系统,结合图像观察与语言指令生成机器人控制视频计划。它采用自我条件一致性方法优化视频质量,通过预训练视觉-语言模型反馈和实际执行数据的收集,持续提升生成效果,减少幻觉内容并提高任务成功率。VideoAgent在模拟环境中有优异表现,并已应用于机器人控制、模拟训练、教育研究、游戏开发以及电影制作等领域,展现出广泛的应用潜力。