音频

AI绘画箱

AI绘画箱收录近千个AI绘画工具网站,提供Midjourney、Stable Diffusion等一站式AI绘画工具、AI图片处理工具、AI素材下载、AI视频音频等工具,只做最好的AI绘画工具网址导航站。

Aiva.ai

我们的使命是通过使用 AI 创建个性化配乐来增强个人能力

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统,支持中英文及2000+音色,能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能,提供Web界面和API接口,适用于有声读物、智能助手、教育、客服等场景,技术上支持高效部署与模型微调。

OpenShot

一款免费、开源的视频编辑软件,OpenShot提供丰富的视频效果、标题和音轨功能,用户可以轻松创建和编辑高质量的视频。

INFP

INFP是一款基于音频驱动的头部生成框架,专为双人对话设计,具备自动角色转换功能。它通过两个阶段实现头部生成:基于动作的头部模仿和音频引导的动作生成。同时,INFP提出了大规模双人对话数据集DyConv,推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景,支持实时互动并可调节生成风格。

TTS-Voice-Wizard

TTS语音向导是一种工具,允许用户通过微软Azure语音识别和TTS将语音转换为文本,然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项,包括100...

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。

SeeMuseums

SeeMuseums 是一款基于AI的智能导览工具,支持多语言、智能推荐和AI音频讲解,帮助用户个性化探索博物馆内容。用户可通过提问获取详细解读,记录笔记并保存收藏,适用于艺术学习、文化探索和教育辅助等多种场景,提升参观体验与知识获取效率。

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

Wavtool

Wavtool 是一款基于浏览器的 AI 音频创作平台,支持录制、编曲、混音和导出音乐,提供 AI 辅助创作功能,支持多轨处理及高级合成工具。用户可通过浏览器直接操作,无需安装软件,适合音乐爱好者、专业人士及教育用途。