语音 - 智狐AI导航

百聆

百聆是一款开源语音对话系统，融合语音识别、语音活动检测、大语言模型和语音合成技术，实现自然流畅的语音交互。支持低延迟运行，无需GPU，适用于边缘设备。具备记忆、工具调用和任务管理等功能，适用于智能家居、个人助理、车载系统等多种场景，提供高效的语音交互解决方案。

AI项目与工具 2025年06月12日 90 点赞 0 评论 591 浏览

ChildMandarin

ChildMandarin是由智源研究院与南开大学合作开发的3-5岁儿童普通话语音数据集，包含41.25小时高质量语音，覆盖全国22个省市。数据通过家长引导式对话采集，保证自然真实。该数据集支持语音识别、说话人验证和语言研究，适用于儿童语言学习、教育系统、智能玩具和语音助手优化等领域，为儿童语音技术研究提供重要资源。

AI项目与工具 2025年06月12日 28 点赞 0 评论 590 浏览

Hallo3

Hallo3是由复旦大学与百度联合开发的基于扩散变换器网络的肖像动画生成技术，能够生成多视角、动态且逼真的视频内容。其核心功能包括身份一致性保持、语音驱动动画、动态对象渲染和沉浸式背景生成。技术上采用预训练变换器模型，结合身份参考网络与音频条件机制，实现高质量视频生成。适用于游戏开发、影视制作、社交媒体及VR/AR等多个领域。

AI项目与工具 2025年06月12日 80 点赞 0 评论 588 浏览

Play.HT

PlayHT是一款使用先进技术将文本转换为逼真、人类声音的AI语音生成器平台。PlayHT提供600多种在142种语言和口音中可用的AI语音，为创建引人入胜和专业声音内容提供了广泛的功能和用途。

Ai语音工具 2025年06月05日 55 点赞 0 评论 585 浏览

字幕说

字幕说是一款为自媒体创作者设计的在线工具，提供文字转语音、音文对齐、视频合成等功能。支持多语言发音、字幕翻译与优化，帮助用户高效生成高质量视频内容，无需出镜即可完成制作，提升创作效率。

AI项目与工具 2025年06月12日 42 点赞 0 评论 584 浏览

MemenomeLM

MemenomeLM是Brainrot AI推出的AI工具，专为Z世代研究人员设计，可将PDF文档、笔记等资料转化为有趣且互动性强的视频内容。具备多模态理解能力，能用简单语言解释复杂概念并提供现实例子，支持生成多种格式的短视频，如Brainrot Quiz、Yap Dollar等，还可添加搞笑音效、生成图片及选择不同语音。

AI项目与工具 2025年06月11日 35 点赞 0 评论 583 浏览