音转文 - 智狐AI导航

Wispr Flow

Wispr Flow 是一款基于AI技术的语音转文字工具，支持100多种语言，具备自动编辑、上下文感知和低音量识别等功能，提升写作与沟通效率。提供免费基础版及付费专业版和团队版，适用于写作、商务、学习等多种场景，注重用户隐私保护，操作便捷自然。

AI项目与工具 2025年06月12日 79 点赞 0 评论 869 浏览

WhisperChain

WhisperChain 是一款开源语音识别工具，支持实时语音转文本并提供文本优化功能，可去除填充词、优化语法。用户可通过全局热键快速启动语音输入，处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构，适用于会议记录、写作辅助等场景。

AI项目与工具 2025年06月12日 57 点赞 0 评论 645 浏览

Scribe

Scribe 是由 ElevenLabs 推出的高精度语音转文本模型，支持 99 种语言，具备多说话者区分、非语言事件检测和单词级时间戳功能。输出结构化的 JSON 数据，适用于会议记录、字幕生成、内容创作等多种场景，广泛应用于教育、客服及媒体领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 654 浏览

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型，结合Whisper编码器与Qwen2 LLM，支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略，提升模型泛化能力和稳定性。基于约5万小时语音数据训练，性能优异，适用于智能客服、教育、心理健康监测等多个领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 812 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 734 浏览

AstrBot

AstrBot是一款多功能聊天机器人及开发框架，支持多种大语言模型和消息平台，具备多轮对话、语音转文字、网页搜索等功能。它采用模块化设计，支持插件开发和多平台部署，适用于企业客服、个人助手、教育辅导等多个场景，提供高效的智能交互体验。

AI项目与工具 2025年06月12日 55 点赞 0 评论 639 浏览

WhisperKeyboard

WhisperKeyboard 是一款基于 OpenAI Whisper 技术的 AI 语音输入工具，支持多语言实时语音转文字，适用于写作、编程、会议记录等场景。具备离线识别、文本润色、多语言翻译和隐私保护等功能，兼容多平台，提升输入效率与文本质量。

AI项目与工具 2025年06月12日 76 点赞 0 评论 739 浏览

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 854 浏览

Fineshare FineVoice

Fineshare FineVoice 是一款多功能 AI 配音生成工具，支持文本转语音、语音转文本、AI 变声、声音克隆和音频生成等功能。提供超过 1500 种声音和 149 种语言选项，适用于视频制作、播客、教育、营销等多种场景，助力用户高效创作高质量的多语言内容。具备强大的自定义能力和便捷操作，适合个人与企业用户使用。

AI项目与工具 2025年06月12日 87 点赞 0 评论 835 浏览

MarkItDown

MarkItDown是一款由微软推出的开源文档转换工具，支持多种文件格式（如PDF、Office文档、图像、音频等）转换为Markdown格式。它具备OCR文字识别、语音转文字、元数据提取等功能，适用于文档归档、内容发布、数据挖掘、学术研究等多个场景，旨在简化文件处理流程，提升工作效率。通过提供简单易用的API接口，MarkItDown成为开发者友好型工具。

AI项目与工具 2025年06月12日 22 点赞 0 评论 867 浏览

音转文

首页

音转文

列表

默认

浏览次数

发布日期