音频

HeyMusic AI

一个基于AI的通过输入歌词或简单的提示来生成独特音乐作品的工具,帮助音乐家和歌曲作者创作歌词、旋律和完整的音乐编排。

Open NotebookLM

Open NotebookLM是一个开源工具,能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型,生成自然流畅的对话式音频,并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件,适用于教育、科研、商业分析等多个领域。

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术,通过提取响度、亮度和音高概率等控制信号,结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架,同时赋予声音设计师更强的表达力与可控性,广泛适用于电影、游戏、音乐制作及教育等多个领域。

Playmate

Playmate是由广州趣丸科技开发的人脸动画生成框架,基于3D隐式空间引导扩散模型和双阶段训练框架,能够根据音频和指令精准控制人物表情和头部姿态,生成高质量动态肖像视频。其支持情感控制、姿态控制和独立控制,可生成多种风格的动态肖像,适用于影视制作、游戏开发、虚拟现实、互动媒体及教育等多个领域。

TIGER

TIGER是由清华大学研发的轻量级语音分离模型,采用时频交叉建模策略与多尺度注意力机制,有效提升语音分离性能,同时显著降低计算和参数开销。模型通过频带切分优化资源利用,适应复杂声学环境,广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

MultiFoley

MultiFoley是一款基于多模态控制的音效生成系统,能够根据文本、音频或视频输入生成与视频同步的高质量Foley声音效果。它支持文本驱动和音频驱动的音效生成,同时具备音频扩展和质量控制功能,广泛应用于电影、游戏、动画及虚拟现实等领域,为用户提供灵活且高效的声音设计解决方案。

JoyHallo

JoyHallo是一款由京东开源的AI数字人模型,专注于普通话语音到视频的转换,支持跨语言生成。它通过半解耦结构优化唇部同步效果,并结合特征嵌入和交叉注意力机制提升生成质量。JoyHallo适用于虚拟主播、在线教育、客户服务、娱乐产业等多个领域,能够显著提升内容创作效率并降低成本。

OpenUtau

OpenUtau 是一款开源的歌声合成工具,支持 UTAU 音源库和 VSQX 格式,具备音素编辑、颤音控制、多语言界面等功能,适用于音乐创作与虚拟歌手合成。它兼容 Windows、macOS 和 Linux,提供预渲染与实时预览,提升创作效率,适合音乐人、开发者及音频爱好者使用。