语音

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足

Speechki

Speechki 是一款高效文本转语音工具,支持多语言和多种语音选择,具备实时校对、角色管理和精准音频控制功能。用户可通过可视化编辑器灵活调整语速、语调和音高,适用于内容创作、教育、企业营销等多种场景。同时支持与 ChatGPT 集成,提升文本转音频的效率和实用性。

Murf AI

Murf AI 是一款文本转语音软件,它能够将真实声音与免版税音乐和视频相结合。

创想家

专注于帮助独立视频制作和教程视频制作者高效管理视频制作流,随时随地规划视频内容,提升个体视频制作生产。

白瓜面试

白瓜面试是一款集智能回答、代码解析、语音与图像识别于一体的AI面试辅助工具。它通过实时语音转录、图片分析及物理隔离功能,帮助求职者在技术面试和技术岗位应聘中保持高效表现。此外,它还支持在线面试、笔试优化及简历定制服务,旨在全面提升用户的面试体验。

CapsWriter

CapsWriter-Offline是一款基于PC端的离线语音输入与字幕转录工具,支持实时语音转文字功能,具备高准确率和无限时长录音能力。其核心技术依托于深度学习模型,可处理中英文混合语音,并提供热词自定义功能以提升特定术语的识别效果。此工具适用于会议记录、学术讲座、视频字幕生成等多种场景,同时确保用户数据的安全与隐私。 ---

BoldVoice

BoldVoice 是一款专注于英语发音训练的工具,结合专业口音课程与AI语音分析技术,帮助非英语母语者提升发音准确性和口语自信。用户可通过录音获得实时反馈与改进建议,并根据个人母语背景定制学习计划。应用还提供发音测试、口音对比和多场景练习功能,适用于职场、考试、日常交流及表演等领域,有效提升英语口语能力。

MyVocal.AI

一种快速简便的方法,用于克隆您的声音,以进行唱歌或演讲。MyVocal.AI提供声音克隆,文本转语音和文本转歌曲的功能。

VAPI

VAPI是一个面向开发者的语音AI平台,凭借其简便的API集成、高精度语音识别、多语言支持以及定制化能力,能够协助开发者快速将语音技术嵌入至不同类型的软件应用中。它注重数据隐私与安全性,并提供多样化的应用场景,如智能助手、客户服务自动化、教育培训、医疗健康及呼叫中心等,帮助企业提升运营效率和服务质量。

WhisperChain

WhisperChain 是一款开源语音识别工具,支持实时语音转文本并提供文本优化功能,可去除填充词、优化语法。用户可通过全局热键快速启动语音输入,处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构,适用于会议记录、写作辅助等场景。