语音

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵,包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色,蓝心语音大模型支持多语言,蓝心图像大模型融合了中国特色和东方美学,蓝心多模态大模型则提供了流畅的视频对话体验。

FakeYou

FakeYou是一个多功能的AI声音生成平台,它通过模拟名人声音,为用户提供了一个创意无限的声音创作工具。

Videco

Videco 是一款基于 AI 技术的视频生成平台,支持语音克隆、动态变量和互动元素集成,适用于销售与市场营销场景。平台可生成个性化视频内容,提升用户参与度和转化率,并支持与 CRM 和邮件工具的集成。提供多语言支持与数据分析功能,助力企业优化营销策略,提高效率。

Dinox

Dinox是一款基于AI技术的语音笔记应用,主要功能包括实时语音转录、本地优先存储、多平台同步、智能生成笔记标题和分类、自动双链及私人AI助理。该应用可帮助用户高效记录灵感和信息,适用于个人日记、会议记录、学习笔记、创意写作及项目管理等多种应用场景。

Pipecat

Pipecat是一款开源Python框架,用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能,支持与主流AI平台集成,采用模块化管道架构,提升开发效率。基于帧的实时处理机制确保流畅交互,适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

MaskGCT

MaskGCT是一款基于掩码生成模型与语音表征解耦编码技术的语音合成大模型,由趣丸科技与香港中文大学(深圳)联合开发。其主要功能包括声音克隆、跨语种语音合成、语音控制及高质量语音数据集支持。该模型在多个TTS基准数据集上表现优异,可快速精准地克隆音色并灵活调整语音属性,适用于多种语言,已开源并面向全球用户开放。

Fish Agent

Fish Agent是一款集成了自动语音识别(ASR)与文本到语音(TTS)技术的端到端语音处理工具,能够直接实现语音到语音的转换,无需传统语义编码器/解码器。它支持多种语言,适用于语音转换、环境音频信息捕捉等场景,并基于深度学习技术优化了语音处理性能。Fish Agent可广泛应用于内容创作、教育、客户服务及娱乐等领域。

Actor Mode

Actor Mode 是由 ElevenLabs 开发的 AI 语音生成工具,支持用户通过自身声音生成风格一致的语音内容。它具备多语言支持、语音属性调节、即时生成等功能,适用于有声读物、视频配音、虚拟助手等多个领域。用户可通过录制或上传音频,让 AI 提取语音特征并生成符合要求的语音输出,提高创作效率与个性化表达。

知意配音

知意配音是一款利用AI技术的文字转语音工具,支持多平台操作,拥有超过200种声音选项,可满足多种配音需求。它具备多音字识别、文案提取、视频字幕编辑等功能,适用于小说推文、影视解说、广告制作等多个领域,是自媒体创作者和视频制作者的理想助手。

逗逗

逗逗是心影随形(上海)技术有限公司开发的AI游戏伙伴,它通过语音互动、情绪陪伴、智能攻略、笑话分享和多角色扮演,为玩家提供个性化和有趣的游戏体验。