语音识别

HMoE

HMoE(混合异构专家模型)是腾讯混元团队提出的一种新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据,HMoE增强了模型的专业化程度,并采用了新的训练目标和策略,如P-Penalty Loss,以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色,适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

突字幕

几分钟内得到字幕-极速识别文字和画面提取字幕

EAP Talk

EAP Talk 是一款基于AI技术的学术英语口语学习工具,提供实时发音、语法和流利度评估,支持多种练习模式如朗读、演讲和情景对话。内置学术场景训练、真人互动及个性化课程,适合高校学生和英语学习者提升口语能力。系统支持词汇练习、学习报告生成和进度跟踪,广泛应用于留学备考、学术研究、国际课堂及职场英语等领域。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

逗逗

逗逗是心影随形(上海)技术有限公司开发的AI游戏伙伴,它通过语音互动、情绪陪伴、智能攻略、笑话分享和多角色扮演,为玩家提供个性化和有趣的游戏体验。

创音岛

创音岛是一款集录音转文字、配音、AI写歌及音频编辑于一体的综合性音乐创作与音频处理平台。它采用先进语音识别技术,支持多场景下的文字转录需求;提供多样化的配音选项和智能化音乐编曲功能,帮助用户轻松创作音乐;并配备音频编辑工具,满足用户对音频文件的精细化处理需求。该平台界面友好,操作便捷,适合音乐爱好者、创作者及专业人士使用。

Gliglish

Gliglish 是一款基于 AI 技术的口语学习平台,通过语音识别和自然语言处理技术,模拟真实对话场景,帮助用户提升口语和听力能力。支持多语言学习,包括英语、中文、日语、韩语、德语、法语等,并提供即时语法和发音反馈。用户可调节对话速度,实现个性化学习。此外,Gliglish 支持多语言语音输入和输出,适合语言初学者及需要强化特定语言技能的学习者。

FoloUp

FoloUp 是一款开源的 AI 语音面试平台,能根据职位描述自动生成面试问题,并通过自然语言交互与候选人进行语音面试。系统支持实时分析、评分与报告生成,提供数据仪表盘用于跟踪候选人表现。平台支持一键分享、远程面试和批量招聘,结合语音识别、NLP 和安全数据管理技术,适用于多种招聘场景,提升招聘效率与质量。

Gooey.AI

Gooey.AI提供了一个简单、可组合的无代码 AI 平台,让用户可以访问 OpenAI、Stability、Google 等的最新模型。