音频

EzAudio

EzAudio是一款基于文本到音频(Text-to-Audio, T2A)生成模型,通过优化的扩散变换器架构和高效的数据训练策略,实现了快速生成高质量音频的功能。它支持多种应用场景,如音乐创作、影视后期制作、语音合成等,并具备高保真度和低资源消耗的特点。

Auphonic

Auphonic是一款利用人工智能技术的在线音频后期处理工具,提供自动音量平衡、降噪、混响减少、滤波、静音剪切等功能,适用于播客制作、广播电台、电影视频制作等多个场景,支持多语言语音转文字及视频章节生成,提供免费和多种付费订阅方案。

智能翻译官

AI智能翻译引擎,涵盖文本、文档、图片、视频、音频等多种在线翻译模式,更有强大的文档格式转换处理功能,为您节约80%的时间。

Loopy

Loopy是一款由字节跳动开发的音频驱动的AI视频生成模型。该模型能够将静态照片转化为具有面部表情和头部动作的动态视频,与给定的音频文件同步。Loopy利用先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,从而生成自然流畅的动作。其主要功能包括音频驱动、面部动作生成、无需额外条件以及长期运动信息捕捉。Loopy适用于娱乐、教育、影视制作等多种场景。

Synthesizer V

Synthesizer V是一款革命性的音乐制作工具,它使用基于深度神经网络的合成引擎来生成令人难以置信的逼真的歌声。它具有可定制的AI音高生成,无限音轨,无核心限制,VST3/AU插件支...

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架,基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动,适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构,提升生成效果与稳定性,广泛应用于影视、游戏、教育、广告等领域。

猫头音

猫头音是一款基于深度学习技术的AI配音与翻唱工具,支持将文字转化为高质量语音输出,并提供多样化音色选择及丰富的音频处理功能。用户可通过简单操作实现个性化配音、修音翻唱以及音频编辑,广泛适用于视频创作、广告制作、有声读物开发及音乐翻唱等多个领域。

ACE Studio

ACE Studio搭载了先进的自动化功能,能一键识别MIDI文件、歌词和音高,自动转换为干声,极大地提高了创作效率。

TurboTTS

TurboTTS是一款支持多语言的在线文本转语音工具,提供300多种真实语音选择,生成自然流畅的语音效果。适用于短视频、教育、广告及播客等多种场景,操作简单,支持多种音频格式下载,并可合法用于商业用途。凭借AI技术,用户能高效完成语音内容制作,满足多样化需求。

ElevenLabs

ElevenLabs 是一个为内容创作者和出版商提供功能强大且用途广泛的 AI 语音软件的平台。它允许用户使用其先进的多用途 AI 语音工具以任何语音和风格生成高质量的口语音频。