语音识别

PaddleSpeech

PaddleSpeech是百度飞桨团队开发的开源语音处理工具,涵盖语音识别、语音合成、声纹识别、语音翻译等功能。支持多种接口形式,适用于智能语音助手、语音播报、身份验证等场景。基于PaddlePaddle框架,提供高效的深度学习模型和丰富的音频处理能力,适用于多种实际应用需求。

星辰大模型

星辰大模型是中国电信研发的AI工具集,涵盖语义、视觉、语音等多模态领域,支持长文本处理、多语种语音识别和多任务视觉处理。平台提供多种模型选择,包括星辰语义模型、星辰语音大模型及星辰多模态大模型,适用于智能客服、内容审核、智能写作、语音识别与合成、图像识别与分析等多种应用场景。

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

Mathtutor on Groq

Mathtutor on Groq 是一款基于 Groq 架构的 AI 辅导工具,通过语音识别功能接收数学问题,结合强大的数学引擎提供实时解题过程与答案。其主要功能包括语音输入、LaTeX 公式渲染、高精度计算及自然语言处理支持,适用于代数、微积分等领域的学习与教学辅助。此外,它还集成了 xRx 框架、Whisper 和 Llama 模型,确保高效且精准的问题解决能力。Mathtutor on G

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型,拥有 1.5 亿参数,专注于长音频处理,支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色,具备高效的训练方法和多任务处理能力,适用于语音助手、实时转写、归档理解等场景。

VideoSrt

VideoSrt是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。

AI酱

AI酱是一款结合二次元元素与AI技术的多语言智能聊天工具,支持多种语言交流,具备语音识别和即时反馈功能。它通过生动的角色形象和标准化发音,帮助用户练习外语口语,并能在情绪疏导、旅行规划等方面提供个性化服务。此外,其多角色设定和场景切换功能进一步增强了用户体验。

青梧字幕

青梧字幕是一款基于AI语音识别技术的字幕提取工具,能够从视频中精准提取语音内容并生成时间轴字幕。支持多语言识别、多格式导出及多语种翻译,适用于视频创作者、外语学习者及字幕团队。所有数据处理在本地完成,保障隐私安全,兼容Windows和MacOS系统,提升字幕制作效率。

URO

URO-Bench 是一个面向端到端语音对话模型的综合评估工具,支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道,分别涵盖16个和20个数据集,覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标,提供简单易用的评估流程,并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。

场辞

场辞,AI视频字幕制作软件,一款基于语音识别技术的视频字幕制作软件,一键智能识别字幕,提供语音转字幕、一键加字幕、视频加字幕,字幕快捷校对等功能,用AI加速你的创作。