语音 - 智狐AI导航

MeloTTS

MeloTTS是一个高质量的多语言文本转语音（TTS）库，由MyShell AI开发。该工具支持多种语言的文本转语音任务，包括英语（含不同口音）、西班牙语、法语、中文、日语和韩语，并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音，还易于安装和使用，适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

AI项目与工具 2024年01月01日 57 点赞 0 评论 826 浏览

AsrTools

AsrTools是一款无需复杂配置的智能语音转文字工具，支持多种音频格式的转换，生成SRT和TXT字幕文件，适用于视频字幕、会议记录、音频转写等多个场景。它具有友好的用户界面、高效的多线程处理能力以及详细的技术文档，旨在为用户提供便捷、准确的语音转文字解决方案。

AI项目与工具 2025年06月12日 40 点赞 0 评论 826 浏览

Voila

Voila是一款开源的端到端语音大模型，支持实时语音交互与多轮对话，具备高保真、低延迟的音频处理能力。集成语音与语言建模功能，支持百万级预设声音及个性化定制，适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构，提升语音理解与生成质量，降低开发成本，提高通用性与灵活性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 828 浏览

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 829 浏览

Multi

Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具，支持将音频中不同说话人的语音精准分离至独立轨道，适用于广播级音频处理。它具备高保真音频处理能力，支持高采样率，能处理长达数小时的录音，在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域，提升音频编辑效率与质量。

AI项目与工具 2025年06月12日 55 点赞 0 评论 831 浏览

cnChar

一个功能全面、多端支持的汉字拼音笔画JavaScript库，用于处理汉字相关的多种功能，包括拼音、笔画、简繁体转换等。

字体字库 2025年06月05日 95 点赞 0 评论 832 浏览

Martin

Martin是一款由大学生团队开发的人工智能助手，支持语音交互与多平台通信，具备日程管理、邮件处理、任务跟踪、文件管理等功能。它通过自定义记忆架构理解用户偏好，提供个性化服务，适用于日常办公和生活管理，提升工作效率与便利性。

AI项目与工具 2025年06月12日 25 点赞 0 评论 833 浏览

Fineshare FineVoice

Fineshare FineVoice 是一款多功能 AI 配音生成工具，支持文本转语音、语音转文本、AI 变声、声音克隆和音频生成等功能。提供超过 1500 种声音和 149 种语言选项，适用于视频制作、播客、教育、营销等多种场景，助力用户高效创作高质量的多语言内容。具备强大的自定义能力和便捷操作，适合个人与企业用户使用。

AI项目与工具 2025年06月12日 87 点赞 0 评论 835 浏览

Perplexity macOS客户端

Perplexity macOS 是一款基于人工智能技术的搜索工具，集成了大语言模型，支持实时联网搜索、多源内容整合及信息来源标注。其主要功能包括语音与文本输入、线索跟踪、历史记录查看及文件分析等，适用于深度研究、信息查询、知识管理和文件分析等多种应用场景，旨在提高用户的搜索效率和工作生产力。

AI项目与工具 2025年06月12日 17 点赞 0 评论 838 浏览

RTranslator

RTranslator是一款基于AI技术的开源、免费离线翻译应用，专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能，能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术，支持多种语言，完全离线运行，保障用户隐私安全。

AI项目与工具 2025年06月12日 44 点赞 0 评论 839 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期