标记
PlayDiffusion
PlayDiffusion是Play AI推出的音频编辑模型,基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列,通过掩码处理和去噪生成高质量音频,保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能,具有非自回归特性,提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。
VoxInstruct
VoxInstruct是清华大学开源的语音合成技术,能够根据人类语言指令生成高质量的语音。该系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到了更广泛的人类指令到语音任务。VoxInstruct通过引入语音语义标记和多种无分类器指导策略,提升了语音合成的自然度和表现力。它支持多语言和跨语言合成,适用于智能语音助手、有声读物、教育培训等多个领域。