文本到语音

Parler

Parler-TTS是一款由Hugging Face开发的开源文本到语音（TTS）模型，能够模仿特定说话者的风格，生成高质量、自然的语音。该模型采用轻量级设计，包括文本编码器、解码器和音频编解码器，通过整合文本描述和嵌入层，优化了语音生成过程。Parler-TTS的所有资源公开，促进了高质量、可控TTS模型的发展。此外，用户还可以根据需要对模型进行自定义训练和微调。

AI项目与工具 2024年01月01日 91 点赞 0 评论 1079 浏览

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术，通过提取响度、亮度和音高概率等控制信号，结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架，同时赋予声音设计师更强的表达力与可控性，广泛适用于电影、游戏、音乐制作及教育等多个领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 888 浏览

Voicemaker

Voicemaker，强大的文本到语音转换器，它也能通过先进的人工智能技术来制作高质量的画外音，听起来像人性化且富有表现力。

Ai语音工具 2025年06月05日 44 点赞 0 评论 880 浏览

NotebookMLX

NotebookMLX 是一款基于 MLX 技术开发的开源工具，支持将 PDF 文档转换为音频播客。它通过 PDF 预处理、播客脚本生成、文本优化以及文本转语音等功能，实现了从 PDF 文件到高质量音频内容的全流程自动化处理，适用于教育、播客创作、有声书制作等多个领域，显著提升了信息传播效率和用户体验。

AI项目与工具 2025年06月12日 70 点赞 0 评论 875 浏览

Bark

Bark是一款开源的文本到音频转换模型，由Suno AI开发，能够生成逼真的多语言语音及多种音频类型，包括音乐和背景噪音，并支持非语言交流的声音。该模型提供预训练模型，适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

AI项目与工具 2025年06月12日 28 点赞 0 评论 866 浏览

GPT-SoVITS

一个强大的语音合成工具，特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换，支持多种语言，并提供了易于使用的WebUI工具。

Ai平台模型 2026年06月21日 0 点赞 0 评论 850 浏览

Open NotebookLM

Open NotebookLM是一个开源工具，能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型，生成自然流畅的对话式音频，并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件，适用于教育、科研、商业分析等多个领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 842 浏览

PDF2Audio

PDF2Audio 是一款开源工具，支持将 PDF 文档转换为音频内容，适用于播客制作、教育、业务演示等多个场景。其核心功能包括 PDF 转文本、生成播客脚本、文本转语音转换、多语言支持及高级编辑功能。用户可通过自定义选项调整文本生成模型、语音风格等，支持批量处理和多种模板适配，方便用户根据需求生成高质量音频。

AI项目与工具 2025年06月12日 35 点赞 0 评论 839 浏览

音子AI

音子AI利用人工智能技术提供了一系列便捷的音频处理服务，无论是音乐制作的音轨分离，还是有声读物的文本转语音，都能满足用户的不同需求。

创作工具 2026年06月21日 0 点赞 0 评论 815 浏览

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型，基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列，通过掩码处理和去噪生成高质量音频，保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能，具有非自回归特性，提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 812 浏览

文本到语音

首页

文本到语音

列表

默认

浏览次数

发布日期