语音 - 智狐AI导航

OmniTalker

OmniTalker 是一款由阿里巴巴开发的实时多模态交互技术，支持文本、图像、音频和视频的同步处理，并能生成自然流畅的语音响应。其核心技术包括 Thinker-Talker 架构和 TMRoPE 时间对齐技术，实现音视频精准同步与高效流式处理。适用于智能语音助手、内容创作、教育、客服及工业质检等场景，具有高实时性与稳定性。

AI项目与工具 2025年06月12日 59 点赞 0 评论 705 浏览

Ola

Ola是一款由多机构联合开发的全模态语言模型，支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略，逐步扩展模型的多模态理解能力，同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器，结合局部-全局注意力机制，实现高效多模态处理，在多项任务中表现优异。

AI项目与工具 2025年06月12日 98 点赞 0 评论 705 浏览

讯飞配音

提供文字转语音、语音合成、国内专业的一站式配音服务平台

字幕配音 2025年06月05日 53 点赞 0 评论 705 浏览

voice.ai

voice.ai的使命是通过普及人工智能技术，增强协作创造力，并允许社区重新定义音频表达方式。公司相信人工智能应该是易于接近、对所有人开放且富有趣味的。

创作工具 2026年06月22日 0 点赞 0 评论 705 浏览

LiSTNR

Listnr是一个人工智能语音生成器和文本到语音的在线工具，允许用户从142种不同语言的900多个声音的文本创建逼真的画外音。

创作工具 2026年06月22日 0 点赞 0 评论 706 浏览

SadTalker是一个由西安交通大学、腾讯AI实验室和蚂蚁集团合作开发的开源AI数字人项目。该工具利用单张人脸图像和语音音频，通过3D运动系数生成逼真的说话人脸动画。它通过ExpNet精确学习面部表情，PoseVAE合成不同风格的头部运动，并采用3D面部渲染技术，实现高质量、风格化的视频动画。SadTalker还具备多语言支持和多模态学习能力，适用于虚拟助手、视频制作、语言学习、社交媒体和教育等

AI项目与工具 2025年06月12日 71 点赞 0 评论 707 浏览

AI Chinese

AI Chinese是一款利用AI技术打造的双语中文学习平台，提供个性化的在线教学服务。其核心功能包括AI模拟教学、双语教学支持、互动练习、语音识别与校正及提问解答等模块，能够满足个人自学、语言学校辅助教学、企业培训等多种应用场景需求。凭借自研中文知识图谱和精准语音反馈，该平台致力于帮助不同语言背景的学习者高效掌握中文。

AI项目与工具 2025年06月12日 98 点赞 0 评论 708 浏览

Vid.AI

一个爆款短视频生成AI工具并优化这些视频以提高在社交媒体上的传播率，提供提示生成视频、AI 脚本生成、AI 声音、短视频创作和内置的素材库。

Ai视频生成 2025年06月05日 71 点赞 0 评论 708 浏览

Narration Box

Narration Box是一种语音合成服务，用户可以创建画外音、旁白、有声读物、音频页面、播客等。它拥有超过700个人工智能增强的仿人叙述者，支持20多种语言，功能强大的语音编辑器，...

创作工具 2026年06月22日 0 点赞 0 评论 709 浏览

MNN

MNN是一个由阿里巴巴开源的轻量级深度学习推理框架，支持多种模型格式和网络结构，具备高性能、低内存占用及跨平台特性。它通过模型量化、计算图优化和异构计算等技术，在移动设备和嵌入式系统中实现高效推理。主要功能涵盖模型转换、硬件加速、内存优化及多模型支持，广泛应用于图像识别、语音处理、智能家居及工业检测等领域。

AI项目与工具 2025年06月12日 76 点赞 0 评论 709 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期