生成

WorldMem

WorldMem是由多所高校与研究机构联合开发的AI世界生成模型,通过引入记忆机制解决传统模型在长时间序列生成中的一致性问题。它支持动态环境模拟、多场景交互及长期一致性保持,适用于虚拟游戏、VR/AR、自动驾驶等多个领域,具备高度真实性和可扩展性。

GPDiT

GPDiT是一种由多所高校和企业联合开发的视频生成模型,结合了扩散模型与自回归模型的优势,具备高质量视频生成、视频表示学习、少样本学习和多任务处理能力。其核心技术包括轻量级因果注意力机制和无参数的旋转基时间条件策略,提升了生成效率与质量。该模型适用于视频创作、编辑、内容理解及创意生成等多种应用场景。

FaceShot

FaceShot是由同济大学、上海AI Lab和南京理工大学联合开发的无需训练的肖像动画生成框架。通过外观引导的地标匹配和基于坐标的地标重定位模块,生成精确的面部地标序列,并结合预训练模型生成高质量动画。其优势在于无需训练、跨领域适配性强、兼容性好,适用于影视、游戏、教育、广告及VR/AR等多个应用场景。

Medeo

Medeo是一款基于AI技术的视频创作平台,能够将文字描述自动转化为高质量视频。它具备智能文生视频、素材匹配、AI配音、音乐推荐、URL转视频及动画生成等功能,广泛应用于内容创作、企业营销、教育培训、个人娱乐和新闻媒体等多个领域。平台集成了多种先进AI模型,提升视频制作效率与创意表现力,是创作者的理想工具。

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型,支持零样本语音克隆和高质量语音合成,具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度,适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本,满足不同性能需求。

Stable Audio Open Small

Stable Audio Open Small 是由 Stability AI 与 Arm 联合开发的轻量级文本到音频生成模型,参数量降至 3.41 亿,适配移动设备和边缘计算场景。基于深度学习与模型压缩技术,支持快速生成音效、音乐片段等音频内容,适用于实时音频生成任务。具备高效运行、低功耗、多场景应用等特点,可用于音乐创作、游戏音效、视频配乐等领域。

LBM

LBM(Latent Bridge Matching)是一种基于潜在空间桥接匹配的图像到图像转换框架,支持目标移除、图像重光照、深度图生成等多种任务。通过布朗桥和随机微分方程实现高效且多样化的图像转换,具备良好的可控性和视觉一致性。适用于摄影、设计、3D建模等多个领域,具有广泛的应用前景。

Webifier

Webifier是一款基于AI技术的网站构建工具,用户只需输入提示即可快速生成React网站,无需编程知识。支持实时编辑、代码导出、多平台部署及数据分析功能,适用于创业者、营销团队、开发者和个人品牌等多种场景,提升网站创建效率与灵活性。

ClipZap AI

ClipZap AI 是一款基于人工智能的视频创作与编辑工具,提供视频剪辑、多语言翻译、AI 换脸、视频生成与增强等多种功能,帮助用户高效制作高质量视频内容,适用于社交媒体推广、产品营销、教育及多语言内容制作等多个场景。

Sketch2Anim

Sketch2Anim是由爱丁堡大学、Snap Research与东北大学联合开发的AI工具,可将2D草图故事板自动转换为高质量3D动画。基于条件运动合成技术,支持精确控制动画生成,包含多条件运动生成器和2D-3D神经映射器两大核心模块。具备交互式编辑功能,提高动画制作效率与灵活性,适用于影视、游戏、广告、教育及VR/AR等多个领域。