语音识别 - 智狐AI导航

TTS

TTS语音向导是一种工具，允许用户通过微软Azure语音识别和TTS将语音转换为文本，然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项，包括100...

Ai语音工具 2026年06月21日 0 点赞 0 评论 599 浏览

Weebo

Weebo是一款基于AI技术的实时语音交互工具，支持语音识别与生成，实现自然流畅的语音对话。具备多语言支持和实时响应能力，适用于个人助理、娱乐互动和教育辅导等场景。技术上融合了Whisper Small、Llama 3.2等模型，提供便捷高效的语音交互体验。

AI项目与工具 2025年06月12日 72 点赞 0 评论 607 浏览

Shadow

Shadow是一款智能会议助手，支持自动转录、语音识别、会议记录生成及关键信息提取等功能，帮助用户提升会议效率和执行力。其核心优势包括本地数据处理、隐私保护、与主流会议平台集成以及自动化任务执行能力。适用于销售、项目管理、市场分析及客户服务等多个场景，是提升团队协作效率的实用工具。

AI项目与工具 2025年06月11日 42 点赞 0 评论 608 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 617 浏览

Amurex

Amurex是一款基于AI技术的会议助手，支持实时建议、智能摘要生成、关键要点提取及会议记录功能。它通过自然语言处理、机器学习和语音识别等技术，实现会议内容的高效管理和总结。适用于企业会议、远程协作、教育培训及项目管理等多种场景，帮助企业提升会议效率并保障数据安全。

AI项目与工具 2025年06月12日 93 点赞 0 评论 621 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 626 浏览

CapsWriter

CapsWriter-Offline是一款基于PC端的离线语音输入与字幕转录工具，支持实时语音转文字功能，具备高准确率和无限时长录音能力。其核心技术依托于深度学习模型，可处理中英文混合语音，并提供热词自定义功能以提升特定术语的识别效果。此工具适用于会议记录、学术讲座、视频字幕生成等多种场景，同时确保用户数据的安全与隐私。 ---

AI项目与工具 2025年06月12日 38 点赞 0 评论 628 浏览

Ello

Ello是一款面向4-8岁儿童的AI阅读辅助工具，结合自适应学习系统和语音识别技术，提供个性化的阅读体验。它包含基于科学阅读法的解码电子书、AI实时辅导、互动阅读功能及激励机制，帮助孩子提升阅读能力、增强自信心。适用于家庭、学校及特殊教育场景，支持月度或年度订阅模式。

AI项目与工具 2025年06月12日 24 点赞 0 评论 628 浏览

讯飞听见字幕

一款基于科大讯飞语音识别技术的AI视频字幕制作软件，提供视频加字幕、自动添加字幕、视频翻译等。

字幕配音 2025年06月05日 67 点赞 0 评论 635 浏览

WhisperChain

WhisperChain 是一款开源语音识别工具，支持实时语音转文本并提供文本优化功能，可去除填充词、优化语法。用户可通过全局热键快速启动语音输入，处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构，适用于会议记录、写作辅助等场景。

AI项目与工具 2025年06月12日 57 点赞 0 评论 644 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期

TTS