语音识别 - 智狐AI导航

VideoCaptioner

VideoCaptioner是一款基于大语言模型的智能字幕处理工具，支持语音识别、字幕优化、翻译、样式调整及视频合成等功能。无需GPU即可运行，兼容多语言和多种字幕格式，适用于视频创作者、教育工作者及字幕翻译团队，提升字幕制作效率与质量。

AI项目与工具 2025年06月12日 50 点赞 0 评论 698 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 696 浏览

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目，包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言；CosyVoice则专注于自然语音生成，支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景，其相关模型和代码已公开发布。

AI项目与工具 2025年06月12日 66 点赞 0 评论 696 浏览

Nuance

Nuance公司以其在对话式AI领域的专业知识，为医疗保健和客户参与提供创新解决方案。公司致力于通过AI技术推动组织效能，提升工作成效，并在全球范围内产生积极影响。

Ai语音工具 2026年06月21日 0 点赞 0 评论 693 浏览

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型，支持实时语音转文本，具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术，适应不同长度的音频输入，计算需求随音频长度变化而调整，适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。

AI项目与工具 2025年06月12日 76 点赞 0 评论 689 浏览

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统，支持低延迟交互与多模态输入输出。系统采用模块化架构，允许灵活配置语音识别、语言模型和语音合成等组件，兼容本地与云服务。支持2D/3D数字人渲染，适用于客户服务、教育、娱乐及企业应用等多个场景，为开发者提供高效、灵活的AI对话解决方案。

AI项目与工具 2025年06月11日 81 点赞 0 评论 688 浏览

Loora

Loora是一款AI驱动的英语口语学习工具，通过模拟真实场景帮助用户提升英语表达能力。支持商务、面试、日常交流等多场景练习，提供实时发音、语法及流利度反馈。具备24小时可用性、个性化课程设计、语音识别与翻译功能，并支持学习进度跟踪，适用于各类英语学习者。

AI项目与工具 2025年06月12日 30 点赞 0 评论 684 浏览

青梧字幕

青梧字幕是一款基于AI语音识别技术的字幕提取工具，能够从视频中精准提取语音内容并生成时间轴字幕。支持多语言识别、多格式导出及多语种翻译，适用于视频创作者、外语学习者及字幕团队。所有数据处理在本地完成，保障隐私安全，兼容Windows和MacOS系统，提升字幕制作效率。

AI项目与工具 2025年06月12日 90 点赞 0 评论 683 浏览

edge-tts 是一个开源的AI文字转语音项目，支持超过40种语言和300多种声音。该项目利用微软Azure Cognitive Services技术，能够将文本信息转换为流畅自然的语音输出。edge-tts 提供了丰富的语言和声音选择，易于集成且具有高度可定制性。其主要功能包括多语言支持、多样声音选择、流畅自然语音、易于集成的API以及开源特性。edge-tts 广泛应用于辅助技术、客户服务、

AI项目与工具 2025年06月12日 86 点赞 0 评论 682 浏览

Soundwave

Soundwave是由香港中文大学（深圳）开发的开源语音理解大模型，专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术，提升语音特征压缩效率，支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 50 点赞 0 评论 677 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期