语音识别 - 智狐AI导航

Universal

Universal-1是一款由AssemblyAI开发的多语言语音识别和转录模型，经过大量多语种音频数据训练，支持英语、西班牙语、法语和德语等。该模型在各种复杂环境中提供高精度的语音转文字服务，具备快速响应能力和改进的时间戳准确性。Universal-1在准确率、响应时间、时间戳估计和用户偏好等方面表现优异，适用于对话智能平台、AI记事本、创作者工具和远程医疗平台等多个应用场景。

AI项目与工具 2024年01月01日 88 点赞 0 评论 819 浏览

Slax Note

SlaxNote是一款利用语音识别技术的AI语音笔记应用，能够实时将语音转换为文本，并自动润色以提升文本质量。它特别适用于户外灵感捕捉、想法整理和内容总结。其主要功能包括实时语音转文字、自动润色、录音保存以及用户友好的界面设计，广泛应用于会议记录、灵感捕捉、日常笔记、亲子时光记录及内容创作等多个场景。

AI项目与工具 2025年06月12日 14 点赞 0 评论 817 浏览

悦录

悦录依托同花顺的语音识别技术，为用户提供免费的录音转文字、语音转文字、视频字幕等服务，1小时音频最快5分钟出稿，准确率高达97%+，全程加密，文件信息安全。

创作工具 2026年06月21日 0 点赞 0 评论 816 浏览

Granola

Granola是一款AI驱动的会议助手工具，支持实时转录、发言者识别、笔记记录和重点标记，自动生成会议总结并支持任务管理。它可与主流会议平台集成，根据会议类型智能调整笔记模板，具备高精度语音识别能力，适用于多种会议场景，帮助用户提升会议效率与信息整理能力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 816 浏览

文小言电脑版

文小言电脑版是一款功能全面的桌面级智能助手，通过自然语言处理技术为用户提供文档解析、智能搜索、写作辅助等功能。它支持多格式文件的一键解析，提供个性化推荐和跨平台同步，能够有效提升办公、学习和生活的效率，适用于撰写报告、制作PPT、备考复习等多种场景。

AI项目与工具 2025年06月12日 30 点赞 0 评论 813 浏览

MiniMax 大语言模型

它基于海量中文数据训练而成，拥有超过1000亿个参数，能够处理上百TB的文本数据。

创作工具 2026年06月21日 0 点赞 0 评论 812 浏览

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型，结合Whisper编码器与Qwen2 LLM，支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略，提升模型泛化能力和稳定性。基于约5万小时语音数据训练，性能优异，适用于智能客服、教育、心理健康监测等多个领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 812 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 806 浏览

逗逗

逗逗是心影随形（上海）技术有限公司开发的AI游戏伙伴，它通过语音互动、情绪陪伴、智能攻略、笑话分享和多角色扮演，为玩家提供个性化和有趣的游戏体验。

创作工具 2026年06月21日 0 点赞 0 评论 800 浏览

Pipecat

Pipecat是一款开源Python框架，用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能，支持与主流AI平台集成，采用模块化管道架构，提升开发效率。基于帧的实时处理机制确保流畅交互，适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

AI项目与工具 2025年06月12日 78 点赞 0 评论 798 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期