语音

知意配音

知意配音是一款利用AI技术的文字转语音工具,支持多平台操作,拥有超过200种声音选项,可满足多种配音需求。它具备多音字识别、文案提取、视频字幕编辑等功能,适用于小说推文、影视解说、广告制作等多个领域,是自媒体创作者和视频制作者的理想助手。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

Amphion

Amphion是一款开源音频生成工具包,包含文本转语音(TTS)、歌声合成(SVS)、语音转换(VC)、歌声转换(SVC)、文本转音频(TTA)和文本转音乐(TTM)等功能。它支持多种神经声码器,并提供可视化模型架构,帮助用户快速掌握音频生成技术。通过统一框架和预训练模型,Amphion推动了音频生成领域的研究和应用发展。

突字幕

几分钟内得到字幕-极速识别文字和画面提取字幕

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

讯飞会议

科大讯飞推出的一款智能、高效、安全的云视频会议协作平台,为用户提供音视频清晰稳定流畅的音视频、多端协同、远程会议、AI降噪、实时多语种字幕、自动生成会议记录等功能。

Klic Studio

Klic Studio是一款基于大型语言模型的视频翻译与配音工具,支持56种语言翻译,适用于多平台内容制作。具备高精度字幕识别、智能分割对齐、语音克隆及一键视频合成等功能,简化视频创作流程,提升多语言内容传播效率。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

FineVoice

FineVoice是一种人工智能数字语音解决方案,可以帮助用户增强声音,并实时改变声音。它配有实时变声器,无限的音频和声音效果,录音室质量的录音机,文本到语音,语音到文本。