音频

Auphonic

Auphonic是一款利用人工智能技术的在线音频后期处理工具,提供自动音量平衡、降噪、混响减少、滤波、静音剪切等功能,适用于播客制作、广播电台、电影视频制作等多个场景,支持多语言语音转文字及视频章节生成,提供免费和多种付费订阅方案。

听脑AI

听脑AI是一款AI智能语音助手,专注于语音转文本和实时录音总结,提供音视频转文字、实时录音转文本、AI总结、章节速览等功能。用户可以通过自由拖动文本查看音视频进度,享受便捷...

Synthesizer V

Synthesizer V是一款革命性的音乐制作工具,它使用基于深度神经网络的合成引擎来生成令人难以置信的逼真的歌声。它具有可定制的AI音高生成,无限音轨,无核心限制,VST3/AU插件支...

Nova A.I.

一款简单却强大的在线视频编辑和日志软件,由计算机视觉视频搜索引擎提供支持。

ACE Studio

ACE Studio搭载了先进的自动化功能,能一键识别MIDI文件、歌词和音高,自动转换为干声,极大地提高了创作效率。

猫头音

猫头音是一款基于深度学习技术的AI配音与翻唱工具,支持将文字转化为高质量语音输出,并提供多样化音色选择及丰富的音频处理功能。用户可通过简单操作实现个性化配音、修音翻唱以及音频编辑,广泛适用于视频创作、广告制作、有声读物开发及音乐翻唱等多个领域。

EzAudio

EzAudio是一款基于文本到音频(Text-to-Audio, T2A)生成模型,通过优化的扩散变换器架构和高效的数据训练策略,实现了快速生成高质量音频的功能。它支持多种应用场景,如音乐创作、影视后期制作、语音合成等,并具备高保真度和低资源消耗的特点。

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。

iMyFone VoxBox

iMyFone VoxBox是一款集多种声音制作功能于一体的AI声音生成器,适合各种使用场景,从视频配音到有声书叙述,再到播客和游戏角色配音等。

VoiceDub

VoiceDub 是一款AI驱动的音频处理平台,支持人声替换、声音克隆、文本转语音及音频分离等功能,提供超过10,000种AI人声音色。用户可通过平台进行音乐创作、有声内容制作及个性化音频生成,适用于多种应用场景,如语言学习、娱乐互动等。