音频

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型,支持情感和语调的精确控制,通过内联音频标签实现多样化的表达。它支持多说话人对话,能模拟真实交谈中的语气变化,覆盖超70种语言,适用于媒体影视配音、有声读物制作、游戏开发和教育等领域,提供生动、真实的声音体验。

Verbalate Ai

Verbalate是一款通用的视频翻译和唇语同步工具,能够轻松地将音频/视频内容转换为多种语言,并具备语音克隆和唇语同步功能。

Koolio.Ai

koolio.ai 是一个基于 Web 平台,可让您在几分钟内将一个概念变成一个完整的播客。

SPLASH

将音乐制作的乐趣带给每个人。

Beepbooply

Beepbooply是一款人工智能驱动的文本转语音工具,允许用户快速轻松地生成具有逼真声音的音频内容。超过80种语言、120种口音和900种声音,用户可以自定义他们的音频,并生成几个小...

EchoMimicV2

EchoMimicV2是一款由阿里巴巴蚂蚁集团研发的AI数字人动画生成工具,能够基于参考图片、音频剪辑及手部姿势序列生成高质量的半身动画视频。它支持多语言(中英双语)输入,并通过音频-姿势动态协调、头部局部注意力及特定阶段去噪损失等技术手段显著提高了动画的真实度与细节表现力,适用于虚拟主播、在线教育、娱乐游戏等多个领域。

VideoToWords AI

一款免费在线将视频和音频转录为文本的工具,轻松在浏览器中将视频转换为文本,添加字幕等。还提供在线编辑、多种格式导出功能。

Remusic

13种音乐功能帮助用户探索音乐作品

Memo AI

Memo AI 是一款AI 驱动的视频、播客转文字工具。

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型,拥有约 70 亿参数,支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能,适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术,结合多阶段训练与优化策略,提升生成效率与质量,兼顾性能与成本效益。