语音 - 智狐AI导航

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 826 浏览

MeloTTS

MeloTTS是一个高质量的多语言文本转语音（TTS）库，由MyShell AI开发。该工具支持多种语言的文本转语音任务，包括英语（含不同口音）、西班牙语、法语、中文、日语和韩语，并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音，还易于安装和使用，适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

AI项目与工具 2024年01月01日 57 点赞 0 评论 826 浏览

AsrTools

AsrTools是一款无需复杂配置的智能语音转文字工具，支持多种音频格式的转换，生成SRT和TXT字幕文件，适用于视频字幕、会议记录、音频转写等多个场景。它具有友好的用户界面、高效的多线程处理能力以及详细的技术文档，旨在为用户提供便捷、准确的语音转文字解决方案。

AI项目与工具 2025年06月12日 40 点赞 0 评论 826 浏览

Outspeed

Outspeed 是一个专注于实时语音和视频 AI 应用开发的平台，提供强大的流媒体处理、低延迟推理、即时部署等功能，支持企业级合规标准。其核心特性包括灵活的模型定制、全面的 SDK 支持以及高效的应用监控工具，广泛应用于客户服务、教育、医疗保健、娱乐、安全监控和质量控制等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 825 浏览

Klic Studio

Klic Studio是一款基于大型语言模型的视频翻译与配音工具，支持56种语言翻译，适用于多平台内容制作。具备高精度字幕识别、智能分割对齐、语音克隆及一键视频合成等功能，简化视频创作流程，提升多语言内容传播效率。

AI项目与工具 2025年06月12日 76 点赞 0 评论 823 浏览

Miley AI

Miley AI 是一款基于人工智能的生活助手，主要功能包括智能语音记录、情绪识别、自动记账、日程管理以及与苹果健康数据连接的运动监督。这款工具特别适用于忙碌的职场人士、创意工作者、学生、健身爱好者及理财者，帮助他们更高效地管理日常生活和工作任务。

AI项目与工具 2025年06月12日 42 点赞 0 评论 821 浏览

LiveKit Agents

LiveKit Agents 是一款基于 Python 的多模态 AI 工具框架，支持实时语音、视频和数据交互。其核心功能包括基于 WebRTC 的低延迟通信、与 OpenAI 等服务的深度集成、丰富的插件生态系统以及负载均衡与自动扩展能力。适用于虚拟助手、客户服务、实时翻译、视频内容审核等多个应用场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 820 浏览

Narakeet

Narakeet 是一款基于自然语音合成技术的在线工具，支持将文本、文档和字幕转换为高质量音频并同步至视频。提供 100 多种语言和 800 多种声音，支持自动化视频制作和多平台分发，适用于教育培训、市场营销、企业沟通及个人创作等多种用途。

AI项目与工具 2025年06月12日 85 点赞 0 评论 820 浏览

丸音APP

丸音APP是一款基于AI音乐创作的音乐分享社区，整合了音乐滤镜，伴奏分离，人声美化，语音去噪等有趣的音乐玩法。

Ai语音工具 2025年06月05日 72 点赞 0 评论 819 浏览

Universal

Universal-1是一款由AssemblyAI开发的多语言语音识别和转录模型，经过大量多语种音频数据训练，支持英语、西班牙语、法语和德语等。该模型在各种复杂环境中提供高精度的语音转文字服务，具备快速响应能力和改进的时间戳准确性。Universal-1在准确率、响应时间、时间戳估计和用户偏好等方面表现优异，适用于对话智能平台、AI记事本、创作者工具和远程医疗平台等多个应用场景。

AI项目与工具 2024年01月01日 88 点赞 0 评论 819 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期