语音识别 - 智狐AI导航

HMoE

HMoE（混合异构专家模型）是腾讯混元团队提出的一种新型神经网络架构，旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据，HMoE增强了模型的专业化程度，并采用了新的训练目标和策略，如P-Penalty Loss，以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色，适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 787 浏览

Timtalk

Timtalk是一款基于人工智能技术的英语口语学习工具，集成了文本和语音对话功能，提供即时反馈、语法检查、词汇扩展及语音识别服务。它能够模拟真实交流场景，满足不同水平用户的需求，并支持多平台使用。无论是日常对话、旅行场景还是专业领域如商务和学术交流，Timtalk都可作为高效的辅助工具。

AI项目与工具 2025年06月12日 22 点赞 0 评论 788 浏览

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型，支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎，能精准捕捉语音中的语调、节奏和情感，生成自然流畅的面部表情和动作。操作简单，无需专业技能，适用于多种角色形象，涵盖社交媒体、企业营销、在线教育等多个领域，是高效内容创作的理想选择。

AI项目与工具 2025年06月11日 45 点赞 0 评论 790 浏览

FunASR

FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包，涵盖语音识别（ASR）、语音活动检测（VAD）、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调，并提供预训练模型和易用接口，便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能，广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 791 浏览

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵，包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色，蓝心语音大模型支持多语言，蓝心图像大模型融合了中国特色和东方美学，蓝心多模态大模型则提供了流畅的视频对话体验。

AI项目与工具 2025年06月12日 76 点赞 0 评论 792 浏览

Pipecat

Pipecat是一款开源Python框架，用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能，支持与主流AI平台集成，采用模块化管道架构，提升开发效率。基于帧的实时处理机制确保流畅交互，适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

AI项目与工具 2025年06月12日 78 点赞 0 评论 798 浏览

逗逗

逗逗是心影随形（上海）技术有限公司开发的AI游戏伙伴，它通过语音互动、情绪陪伴、智能攻略、笑话分享和多角色扮演，为玩家提供个性化和有趣的游戏体验。

创作工具 2026年06月21日 0 点赞 0 评论 800 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 806 浏览

MiniMax 大语言模型

它基于海量中文数据训练而成，拥有超过1000亿个参数，能够处理上百TB的文本数据。

创作工具 2026年06月21日 0 点赞 0 评论 812 浏览

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型，结合Whisper编码器与Qwen2 LLM，支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略，提升模型泛化能力和稳定性。基于约5万小时语音数据训练，性能优异，适用于智能客服、教育、心理健康监测等多个领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 812 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期