语音

播记

播记是一款基于AI技术的播客节目笔记生成工具,能够自动提取音频内容中的关键信息,生成包含主题、嘉宾介绍、观点及时间戳的详细笔记。支持多种格式导出,便于内容管理和二次创作。适用于社交媒体、邮件简报、博客文章等多种场景,具备智能分类、多语言支持及内容优化功能,提升播客内容的传播效率与质量。

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型,基于MoE架构,支持文本、图像、音频和视频等多种模态的输入输出,具备强大的理解和生成能力。模型在多个任务中表现优异,如图像识别、视频理解、语音问答等,适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性,为用户提供一体化智能体验。

VoicePanel

一个利用AI进行语音或视频采访的平台,Voicepanel 的 AI 可以招募您的目标受众,通过语音或视频进行采访,并立即合成可操作的见解总结。

Chinese

Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集,包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容,显著提升语音识别性能,实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境,为多模态语音识别研究提供丰富数据支持。

iMyFone VoxBox

iMyFone VoxBox是一款集多种声音制作功能于一体的AI声音生成器,适合各种使用场景,从视频配音到有声书叙述,再到播客和游戏角色配音等。

蘑兔听记

一款音视频转文字工具,超98%的语音识别准确率,30分钟音频只需3分钟就可转成文字,支持20多种方言、30余种外语,极大提高了工作和学习效率。

NaturalReaders

一款文本转语音软件和Ai语音生成器,可以将文本、PDF和其他格式转换为音频,让用户可以听取他们的文件、电子书和学习材料。

Talk to Ash

Talk to Ash 是一款基于人工智能的心理健康支持平台,通过语音对话技术提供全天候的情感支持与心理辅导服务。平台结合认知行为疗法(CBT)和辩证行为疗法(DBT)等专业方法,能根据用户对话生成个性化建议。具备语音交互、情绪倾听、目标追踪、隐私保护等功能,适用于压力管理、人际关系改善和个人成长等场景。

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

T2A

T2A-01-HD是一款支持声音克隆与多语言合成的AI语音模型,可精准还原原声特征与情感表达。具备智能情感系统、多语言支持及高级参数控制功能,适用于有声读物、影视配音、教育、语言学习等多种场景,提供高质量、个性化的语音输出。