语音 - 智狐AI导航

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架，集成了 OpenAI 实时 API 和 RTC 技术，支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能，支持高性能实时通信和模块化扩展，适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 530 浏览

AI酱

AI酱是一款结合二次元元素与AI技术的多语言智能聊天工具，支持多种语言交流，具备语音识别和即时反馈功能。它通过生动的角色形象和标准化发音，帮助用户练习外语口语，并能在情绪疏导、旅行规划等方面提供个性化服务。此外，其多角色设定和场景切换功能进一步增强了用户体验。

AI项目与工具 2025年06月12日 37 点赞 0 评论 529 浏览

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具，基于超10万小时播客数据训练，支持零样本语音合成与说话人适配，可在0.33秒内生成1秒音频，适合实时与长内容合成。支持本地部署与API调用，应用于播客、有声书、视频配音、AI角色及新闻播报等领域，兼具高效性与灵活性。

AI项目与工具 2025年06月11日 94 点赞 0 评论 528 浏览

OuteTTS

OuteTTS是一款基于开源技术的文本到语音（TTS）工具，利用纯语言建模方法生成自然语音。它支持语音克隆和自定义说话人声音，具备音频标记化、CTC强制对齐和结构化提示创建等功能。OuteTTS与llama.cpp和GGUF格式兼容，适用于有声读物、智能客服、语音导航等多种应用场景。

AI项目与工具 2025年06月12日 36 点赞 0 评论 527 浏览

Notta

Notta是由MIND CRUISER LIMITED推出的语音转写软件，主要针对个人使用，并在海外拥有数十万用户。这款软件具有录音实时转写、音/视频导入转写、文本多格式导出、音频标记等功能，...

Ai办公效率 2026年06月21日 0 点赞 0 评论 525 浏览

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型，支持零样本语音克隆和高质量语音合成，具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度，适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本，满足不同性能需求。

AI项目与工具 2025年06月11日 33 点赞 0 评论 524 浏览