Diffusion

Large Motion Model

Large Motion Model(LMM)是一款由新加坡南洋理工大学S-Lab和商汤科技合作研发的多模态运动生成框架。它支持从文本、音乐等多种模态生成逼真运动序列,具备高度精准的身体部位控制能力和强大的泛化能力。通过整合多样化的MotionVerse数据集以及创新性的ArtAttention机制和预训练策略,LMM在多个领域展现出高效的应用潜力,包括动画、虚拟现实、影视特效及运动分析等。

ConsisID

ConsisID是一款由北京大学和鹏城实验室开发的文本到视频生成工具,其核心技术在于通过频率分解保持视频中人物身份的一致性。该模型具备高质量视频生成能力、无需微调的特点以及强大的可编辑性,同时拥有优秀的泛化性能。其主要功能包括身份保持、高质量视频生成、文本驱动编辑以及跨领域人物处理,广泛应用于个性化娱乐、虚拟主播、影视制作、游戏开发及教育模拟等领域。

SmoothCache

SmoothCache是一种针对Diffusion Transformers(DiT)模型的推理加速技术,通过分析层输出的相似性实现自适应缓存和特征重用,有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点,支持图像、视频、音频及3D模型生成,并在多种应用场景中展现出卓越的性能表现。

FitDiT

FitDiT是一种基于Diffusion Transformers架构的高保真虚拟试穿技术,通过服装纹理提取器和先验演化技术精确捕捉服装细节,同时采用扩张-松弛掩码策略优化尺寸适配。它能在短时间内生成高质量的试穿图像,适用于电子商务、时尚设计、个性化定制以及增强现实等领域,为用户提供逼真的虚拟试穿体验。

Vidu 1.5

Vidu 1.5是一款基于多模态视频大模型的AI生成工具,支持参考生视频、图生视频和文生视频生成,通过精准的语义理解能力,在30秒内完成高质量视频创作,适用于影视、动漫、广告等多行业场景,助力创作者高效产出多样化内容。

PromptBase

PromptBase是一个在线平台,专注于AI提示词的交易与应用。用户可以浏览并购买由专业AI创作者制作的提示词,涵盖多种AI模型及应用场景;同时,用户也可上传自己的提示词成为卖家,或利用这些提示构建AI应用程序。PromptBase支持内容生成、艺术创作、社交媒体营销、游戏开发等多个领域,为AI技术的普及与创新提供了有力支持。

PixWizard

PixWizard是一款基于自然语言指令的多功能图像处理工具,支持图像生成、编辑、翻译、修复等任务。通过基于流的Diffusion Transformer(DiT)模型及结构感知与语义感知指导,PixWizard能够高效处理各种视觉任务,并展现出强大的生成能力和泛化性能。

Tensor.Art

Tensor.Art 是一款基于 AI 技术的图像生成平台,支持用户通过文字描述生成高质量图像。平台提供多种模型类型,支持模型共享、在线运行及训练,并拥有 ControlNet、图像到图像等功能。Tensor.Art 构建了活跃的创作者社区,适用于艺术创作、广告设计、教育等多个领域,为用户提供便捷高效的图像生成解决方案。

StoryMaker

StoryMaker 是一款基于 Stable Diffusion XL 模型和 LoRA 技术的文本到图像生成工具,专为保持连续图像中角色一致性而设计。其核心功能包括角色一致性维护、多角色处理、高质量图像生成及叙事创作支持。通过深度学习和面部特征识别技术,StoryMaker 能够生成细节丰富、视觉一致的图像,广泛应用于漫画、游戏、影视制作及广告创意等领域。

PoseTalk

PoseTalk 是一款基于文本和音频驱动的开源工具,专注于生成自然且逼真的头部动画视频。它通过 Pose Latent Diffusion (PLD) 模型和级联网络实现唇部同步与运动细化,广泛应用于虚拟助手、在线教育和娱乐等领域,提供多样化的动画生成能力和高度精准的唇形同步效果。