语音

Open NotebookLM

Open NotebookLM是一个开源工具,能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型,生成自然流畅的对话式音频,并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件,适用于教育、科研、商业分析等多个领域。

DeepL Voice

DeepL Voice是一款由DeepL推出的即时语音翻译服务,分为DeepL Voice for Meetings和DeepL Voice for Conversations两大模块。前者针对虚拟会议设计,支持实时字幕生成和跨语言协作,兼容超过30种语言并集成Microsoft Teams;后者专注于移动设备上的面对面语音翻译。凭借其低延迟、高性能和高安全性(ISO 27001认证),DeepL

TTS Online

TTS Online是一款免费的文本转语音工具,提供语音合成服务,支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、韩语等,以及多种语音风格。

SpicyChat

SpicyChat是一款面向成人用户的AI聊天应用,提供角色扮演聊天功能,支持用户与超过150,000个聊天机器人互动,并可创建个性化虚拟角色。该平台强调隐私保护,提供安全、无偏见的环境,支持多语言交流,具备AI语音回应及基于对话的图像生成功能,旨在为用户提供深入的情感体验和创意灵感。

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型,具备听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语,主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库,具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别,适用于语音助手、会议记录、实时字幕等场景,提供灵活的音频输入与预处理机制,便于开发者快速集成和扩展。

Steve AI

Steve AI 是一款基于人工智能技术的云端视频生成平台,支持文本、博客、网页或音频内容转化为高质量视频和动画。它提供文本到视频、AI语音到视频、动画AI头像视频等多种功能,拥有超过300个AI头像及庞大的媒体库,同时配备40多种视频编辑工具。用户无需专业技能即可快速制作出专业级视频内容,广泛适用于社交媒体营销、教育培训、企业培训、内容营销和个人品牌建设等领域。

MiniMax 大语言模型

它基于海量中文数据训练而成,拥有超过1000亿个参数,能够处理上百TB的文本数据。

VoxInstruct

VoxInstruct是清华大学开源的语音合成技术,能够根据人类语言指令生成高质量的语音。该系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到了更广泛的人类指令到语音任务。VoxInstruct通过引入语音语义标记和多种无分类器指导策略,提升了语音合成的自然度和表现力。它支持多语言和跨语言合成,适用于智能语音助手、有声读物、教育培训等多个领域。