视频生成

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具,能够利用多个文本提示生成连贯且高质量的视频内容,无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡,同时在MPVBench基准上表现出色,适用于电影、游戏、广告及新闻等多个领域。

Pippit AI

一款由 CapCut 推出的专注于营销内容生产的AI创作工具。用户可通过输入产品链接或上传素材,快速生成视频、图片和数字人,适配社交媒体和电商平台。

可灵AI国际版(Kling AI)

Kling AI国际版是快手推出的AI创意工具,支持图像、视频及声音的生成与编辑。用户可通过文本或图像输入生成内容,并利用AI模板、虚拟模特、换装及对口型等功能进行创作。适用于内容创作、教育、电商及社交等多个领域,提升创作效率与表现力。

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。

Etna

是由七火山科技开发的一个平...

Product Avatar

Product Avatar 是一款由 TopView 推出的 AI 工具,能够将产品图片转化为由虚拟人物手持展示的视频内容。用户只需上传图片并选择模板,即可生成高质量视频,无需真人模特。支持多语言与唇形同步,适用于电商、社交媒体及广告营销等场景,帮助品牌提升产品展示效果与全球市场沟通能力。

Symphony Creative Studio

Symphony Creative Studio是一款由TikTok开发的AI视频创作工具,专注于简化广告主和内容创作者的视频制作流程。它具备视频生成、转换、扩展以及虚拟人物创作等功能,支持多语言翻译与配音,并可基于品牌IP定制虚拟形象。通过整合多种智能技术,该工具显著提升了内容创作效率与质量。

AVD2

AVD2是由多所高校联合开发的自动驾驶事故视频理解框架,通过生成高质量事故视频并结合自然语言描述与推理,提升对复杂事故场景的理解能力。其功能涵盖事故视频生成、原因分析、预防建议及数据集增强,支持自动驾驶系统的安全优化与研究。基于先进模型如Open-Sora 1.2和ADAPT,AVD2在多项评估中表现优异,为自动驾驶安全提供了重要技术支撑。

Lumiere

谷歌研究院开发的基于空间时间的文本到视频扩散模型。采用了创新的空间时间U-Net架构,能够一次性生成整个视频的时间长度,确保了生成视频的连贯性和逼真度。

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。