语音识别 - 智狐AI导航

VXlive

VXlive是一款以语音社交为核心的多功能应用，支持语音聊天、直播、1对1视频通话及AI互动功能。内置AI语音识别与语音日记，提供个性化互动体验，增强用户情感陪伴。语音挑战活动提升社交趣味性，适合各类用户拓展社交圈，尤其适合社交焦虑人群。应用注重互动性和社区氛围，打造轻松友好的社交环境。

AI项目与工具 2025年06月12日 78 点赞 0 评论 717 浏览

FunClip

FunClip是一款由阿里巴巴达摩院通义实验室开发的开源、本地部署的视频剪辑工具。它主要通过自动化语音识别技术，帮助用户基于语音转文字的结果，选择特定文本片段或说话人进行视频剪辑。其特点包括高精度的中文ASR模型、热词定制化、说话人识别功能、Gradio交互界面，以及支持多段剪辑和自动生成SRT字幕文件。

AI项目与工具 2024年07月01日 55 点赞 0 评论 718 浏览

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备，支持多模态感知与多维表达，提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音，接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域，提升服务效率与用户体验。

AI项目与工具 2025年06月12日 10 点赞 0 评论 721 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 721 浏览

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型，采用大规模稀疏MoE架构，具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式，适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主，性能优于GPT-4o和Claude 3.5 Sonnet等主流模型，且具备成本优势。

AI项目与工具 2025年06月12日 23 点赞 0 评论 723 浏览

Chat Video

Chat Video 基于AI的高效视频学习工具，具有语音识别、摘要总结、AI 问答等功能。

视频剪辑 2025年06月05日 25 点赞 0 评论 731 浏览

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架，专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力，可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域，同时支持预训练模型微调和端到端开发流程，为企业提供高效灵活的解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 733 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 734 浏览

TTS-Voice-Wizard

TTS语音向导是一种工具，允许用户通过微软Azure语音识别和TTS将语音转换为文本，然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项，包括100...

Ai语音工具 2026年06月21日 0 点赞 0 评论 734 浏览

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Ai开源项目 2025年06月05日 90 点赞 0 评论 736 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期