MaskGCT

简介：MaskGCT是一款基于掩码生成模型与语音表征解耦编码技术的语音合成大模型，由趣丸科技与香港中文大学（深圳）联合开发。其主要功能包括声音克隆、跨语种语音合成、语音控制及高质量语音数据集支持。该模型在多个TTS基准数据集上表现优异，可快速精准地克隆音色并灵活调整语音属性，适用于多种语言，已开源并面向全球用户开放。

AI小编 800 阅读 0 评论 35 点赞

项目地址

MaskGCT是由趣丸科技与香港中文大学（深圳）联合研发的语音合成大模型，采用掩码生成模型与语音表征解耦编码技术，在声音克隆、跨语种合成及语音控制等领域展现出卓越性能。该模型在多个语音合成基准测试中达到行业领先水平，部分性能指标甚至超越人类表现。MaskGCT具备高效的声音克隆能力，能够快速且真实地复刻任意音色，并支持对语音时长、速度和情感的灵活调节，兼容中文、英文、日文、韩文、法文和德文等多种语言。目前，该模型已通过Amphion系统开源，向全球开发者开放。

本文分类：AI项目与工具
本文标签：语音合成声音克隆跨语种合成语音控制高质量语音数据集 TTS 模型开源人工智能自然语言处理多语言支持
浏览次数：800 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://www.sihangdaima.com/AIxiangmuyugongju/10777.html

评论列表共有 0 条评论

暂无评论

MaskGCT

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复