音频

detangle

detangle 是一款基于人工智能的法律辅助工具,能够快速生成法律文件摘要,将复杂术语转化为通俗语言,帮助用户精准识别关键条款并提供音频摘要功能。适用于个人、企业、法律从业者及学习者,提升法律文件处理效率与理解能力,同时保障数据安全。

Text To Speech

构建自然说话的应用和服务,从 147 种语言和变体中选择 456 种语音

EDTalk

EDTalk是一款基于音频驱动的唇部同步模型,支持嘴型、头部姿态及情感表情的独立操控。用户可通过上传图片、音频和参考视频生成具有唇形同步和情感表达的动态人脸视频,广泛应用于教育、影视后期、虚拟现实等领域。其高效解耦机制和轻量化设计使其易于操作且资源友好。

Cassette

Cassette能帮助您立即创作出高品质的节拍。 凭借其先进的AI技术,Cassette可以生成与您的音乐视觉相匹配的独特节拍和节奏。 只要向人工智能模型描述你的节拍,应用程序就会完成剩...

海豚配音TTS Online

海豚配音TTS Online是一个多功能的在线TTS服务平台,它通过先进的语音合成技术,为用户提供了一种便捷的方式来生成高质量的语音内容。

Particle News

Particle News是一款以AI驱动的新闻阅读平台,通过聚合多源信息,为用户提供个性化、简洁的新闻摘要与多视角报道。其核心功能包括个性化订阅、多样化新闻风格展示、互动问答及音频新闻服务,旨在帮助用户高效获取全面、客观的信息。适用于通勤、学习、工作等多种场景,适合各类用户群体。

BuboGPT | 字节大模型

BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。

Buzz

Buzz是一款基于OpenAI Whisper模型的离线语音转文字工具,支持实时语音转文字和音频视频文件转录。它具备多语言识别和翻译功能,支持多种格式导出,并能在本地离线操作以保护用户隐私。主要应用于视频字幕制作、采访记录整理、语言学习辅助、会议记录和学术研究等场景。

Hertz

Hertz-Dev是一款由Standard Intelligence开发的开源音频模型,专注于低延迟实时对话AI。它具备强大的音频生成与处理能力,能够处理和生成高质量的音频信号,并支持多任务微调,适用于语音识别、语音合成等多种应用场景。此外,Hertz-Dev还提供了音频自动编码、流式生成等功能,广泛应用于智能助手、客户服务、语音识别及合成等领域。

AssemblyAI

一个提供将音频文件、视频文件和实时语音转录为文字的平台,提供了一个简单的API,允许用户访问用于转录和语音理解的即可用的AI模型。