音频

Whisper

Whisper是一个开源的自动语音识别系统,经过68万小时的多语言和多任务监督数据训练

SmoothCache

SmoothCache是一种针对Diffusion Transformers(DiT)模型的推理加速技术,通过分析层输出的相似性实现自适应缓存和特征重用,有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点,支持图像、视频、音频及3D模型生成,并在多种应用场景中展现出卓越的性能表现。

LipRead Pro

LipRead Pro 是一款基于AI技术的视频唇读工具,可将视频中的唇部动作转换为文字,支持多语言和口音识别。其高精度算法确保了文字输出的准确性,适用于内容创作、无障碍辅助、安全监控、历史档案修复等多种场景。操作简便,处理高效,注重用户数据隐私保护,适合专业用户和普通用户使用。

UniScribe

一个帮你更快的从音视频中获取信息的音视频转录和翻译工具。UniScribe能快速将本地音频、视频文件或 YouTube 视频转化为简短摘要,帮助您轻松掌握要点,支持98种语言。

JoyVASA

JoyVASA是一个基于扩散模型的音频驱动数字人头项目,能够生成与音频同步的面部动态和头部运动。其主要功能包括唇形同步、表情控制及动物面部动画生成,支持多语言和跨物种动画化。项目采用两阶段训练方法,结合解耦面部表示与扩散模型技术,生成高质量动画视频,广泛应用于虚拟助手、娱乐媒体、教育、广告等多个领域。

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术,通过提取响度、亮度和音高概率等控制信号,结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架,同时赋予声音设计师更强的表达力与可控性,广泛适用于电影、游戏、音乐制作及教育等多个领域。

AniPortrait

AniPortrait是一款由腾讯开源的AI视频生成框架,通过音频和一张参考肖像图片生成高质量的动画。该框架包含两个核心模块:Audio2Lmk模块将音频转换为2D面部标记点,而Lmk2Video模块则基于这些标记点生成连贯且逼真的视频动画。AniPortrait以其高质量的视觉效果、时间一致性和灵活的编辑能力著称,能够精确捕捉面部表情和嘴唇动作。

CapCut

CapCut是一款由抖音开发的免费视频编辑软件,支持视频剪辑、音频编辑、字幕生成、滤镜应用及转场效果等多种功能。该软件界面友好,易于学习,适用于初学者和专业人士。它不仅可以在移动设备上使用,还支持PC端,便于用户跨平台编辑和分享视频。CapCut广泛应用于社交媒体内容创作、商业宣传、教育和培训以及个人项目。

OpenUtau

OpenUtau 是一款开源的歌声合成工具,支持 UTAU 音源库和 VSQX 格式,具备音素编辑、颤音控制、多语言界面等功能,适用于音乐创作与虚拟歌手合成。它兼容 Windows、macOS 和 Linux,提供预渲染与实时预览,提升创作效率,适合音乐人、开发者及音频爱好者使用。

sCM

sCM是一种由OpenAI开发的基于扩散模型的连续时间一致性模型,通过简化理论框架与优化采样流程,实现了图像生成速度的大幅提升。该模型仅需两步采样即可生成高质量图像,且速度比传统扩散模型快50倍。得益于连续时间框架和多项技术改进,sCM不仅提高了训练稳定性,还提升了生成质量。其应用场景广泛,包括视频生成、3D建模、音频处理及跨媒介内容创作,适用于艺术设计、游戏开发、影视制作等多个行业。