语音

Voicemaker

Voicemaker,强大的文本到语音转换器,它也能通过先进的人工智能技术来制作高质量的画外音,听起来像人性化且富有表现力。

快转字幕

快转字幕,适用于为各种创作者提供字幕制作、学习资源、会议记录、字幕制作等场景,一键为您的视频生成精准的字幕。

Sierra

Sierra 是一款基于对话式 AI 的客户服务解决方案,支持多语言、语音交互和品牌一致性,可实时处理复杂客户问题并优化体验。平台具备强大的适应性和数据分析能力,适用于零售、金融、电信等多个行业,提供高效、个性化的客户支持服务。

FakeYou | 语音克隆和仿声

FakeYou 是一款功能强大的文本到语音工具,可以帮助用户生成个性化的语音内容,同时支持实时语音克隆和仿声模拟体验。

秘塔翻译

秘塔翻译,专业的AI法律翻译,专为法律人训练的机器翻译系统.。

LatentSync

LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需中间3D或2D表示,可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法,提升视频时间一致性,并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。

HoneyDo

一款通过语音指令简化购物体验的语音控制购物清单助手。它还提供了一个基于人工智能的“拍照识别”功能,可以从拍摄的餐食或食品储藏处的照片中识别并列出食材清单。

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术,通过提取响度、亮度和音高概率等控制信号,结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架,同时赋予声音设计师更强的表达力与可控性,广泛适用于电影、游戏、音乐制作及教育等多个领域。

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

DeepL Voice

DeepL Voice是一款由DeepL推出的即时语音翻译服务,分为DeepL Voice for Meetings和DeepL Voice for Conversations两大模块。前者针对虚拟会议设计,支持实时字幕生成和跨语言协作,兼容超过30种语言并集成Microsoft Teams;后者专注于移动设备上的面对面语音翻译。凭借其低延迟、高性能和高安全性(ISO 27001认证),DeepL