OmniTalker OmniTalker 是一款由阿里巴巴开发的实时多模态交互技术,支持文本、图像、音频和视频的同步处理,并能生成自然流畅的语音响应。其核心技术包括 Thinker-Talker 架构和 TMRoPE 时间对齐技术,实现音视频精准同步与高效流式处理。适用于智能语音助手、内容创作、教育、客服及工业质检等场景,具有高实时性与稳定性。 AI项目与工具 2025年06月12日 59 点赞 0 评论 350 浏览
CosyVoice 一种深度融合文本理解和语音生成的一项新型语音合成技术,CosyVoice能够精准解析并诠释各类文本内容,将其转化为宛如真人般的自然语音。 Ai语音工具 2025年06月05日 33 点赞 0 评论 352 浏览
VoiceCraft VoiceCraft是一款开源的神经编解码器语言模型,专攻零样本语音编辑和文本到语音(TTS)任务。它采用Transformer架构,通过token重排过程结合因果掩蔽和延迟叠加技术,实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色,适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。 AI项目与工具 2024年01月01日 31 点赞 0 评论 353 浏览
Freestyler Freestyler是一款由多机构合作开发的AI工具,专注于说唱音乐的自动化生成。它通过结合语言模型、条件流匹配技术和神经声码器,实现了从歌词和伴奏到高质量说唱音频的全流程转化。Freestyler还推出了RapBank数据集,并支持零样本音色控制,广泛应用于音乐创作、现场表演、游戏音效及教育等领域。 AI项目与工具 2025年06月12日 17 点赞 0 评论 357 浏览
TTS-vue TTS-Vue是一个开源的桌面应用程序,它利用了微软的语音合成技术,为用户提供了一个简单易用的文本到语音转换工具。 Ai语音工具 1970年01月01日 0 点赞 0 评论 359 浏览
Sonic Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架,基于音频信号生成逼真面部表情和动作。它通过上下文增强音频学习和运动解耦控制器,提升唇部同步精度与运动多样性。Sonic在长视频生成中表现出色,具备高稳定性与自然连贯性,支持用户自定义参数。适用于虚拟现实、影视制作、在线教育、游戏开发和社交媒体等多个领域。 AI项目与工具 2025年06月12日 67 点赞 0 评论 360 浏览
PodAgent PodAgent是一款由多所高校与企业联合开发的播客生成框架,采用多智能体协作机制,模拟真实脱口秀场景,自动生成高质量对话内容。系统具备声音匹配、语音合成与表现力增强功能,并提供多语言支持和完整播客结构生成能力。同时,PodAgent引入评估指标,确保内容的专业性与多样性,适用于媒体、教育、企业推广等多个领域。 AI项目与工具 2025年06月12日 87 点赞 0 评论 360 浏览
Orpheus TTS Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。 AI项目与工具 2025年06月12日 26 点赞 0 评论 360 浏览
Voicebox Voicebox 是由 Meta AI 研究团队开发的一款领先的语音生成模型。Voicebox 能够在六种语言中合成语音,消除瞬态噪声,编辑内容,在语言之间转移音频风格,并生成多样的语音样本。此... 创作工具 1970年01月01日 0 点赞 0 评论 363 浏览