语音

Emote

Emote是一款基于AI技术的智能笔记工具,支持实时语音转录、情感分析及关键词提取等功能。它能帮助用户记录生活、管理时间、分析消费习惯,并提供私人笔友服务以实现情感支持。同时,Emote允许用户自定义笔记本和标签,满足个性化需求。

All Voice Lab

All Voice Lab是一款基于AI技术的语音创作平台,提供文本转语音、声音克隆、视频翻译、变声等多种功能,支持多语言及多音色转换。平台具备高精度的语音生成能力,可应用于内容创作、视频制作、教育及娱乐等领域,提升内容表现力与国际化传播效率。

Whisper

Whisper是一个开源的自动语音识别系统,经过68万小时的多语言和多任务监督数据训练

Enhance Speech

一款由 Adobe 出品的录音增强工具,可以去除音频背景噪音,让语音或者录音听起来就像在专业录音室中录制一样,使音频具有专业录音室品质录音的干净、专业的声音。

Chat Video

Chat Video 基于AI的高效视频学习工具,具有语音识别、摘要总结、AI 问答等功能。

Translate Now

Translate Now是一款免费的翻译应用程序,可让您在 100 多种语言之间翻译文字、语音和图像。它使用 Google 翻译技术,提供快速、准确的翻译。

SOLAMI

SOLAMI是一款基于VR环境的3D角色扮演AI系统,支持用户通过语音和肢体语言与虚拟角色进行沉浸式互动。系统采用社交视觉-语言-行为模型(Social VLA),可识别用户的多模态输入并生成相应响应,涵盖多种角色类型及互动场景,如游戏、舞蹈等。其核心技术涉及多任务预训练和指令微调,适用于虚拟社交、教育、心理治疗及娱乐等多个领域。

Glimmer AI

一款使用GPT-3和DALL·E 2进行AI支持的ppt演示工具,根据用户的文本和语音指令生成视觉非常出色的PPT演示文稿。

TTS-Voice-Wizard

TTS语音向导是一种工具,允许用户通过微软Azure语音识别和TTS将语音转换为文本,然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项,包括100...

Pipecat

Pipecat是一款开源Python框架,用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能,支持与主流AI平台集成,采用模块化管道架构,提升开发效率。基于帧的实时处理机制确保流畅交互,适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。