语音

​33搜帧

​33搜帧是一个可以通过文本描述来搜索视频画面的工具

白瓜面试

白瓜面试是一款集智能回答、代码解析、语音与图像识别于一体的AI面试辅助工具。它通过实时语音转录、图片分析及物理隔离功能,帮助求职者在技术面试和技术岗位应聘中保持高效表现。此外,它还支持在线面试、笔试优化及简历定制服务,旨在全面提升用户的面试体验。

speakSync

AI语音翻译器,无缝语音和文本转换,一款基于ChatGPT的AI语音翻译应用,支持70多种语言。它可以实现面对面语音通话。

OfferinAI

OfferinAI是一款面向求职者和招聘者的智能工具,集成了实时语音识别、快速响应、网络搜索及代码生成等功能,旨在提升用户在面试和笔试中的表现。它支持多种模式,适用于在线面试、笔试辅助、技能测试及模拟面试等场景,帮助用户在多轮面试中获得竞争优势。

Speechki

Speechki 是一款高效文本转语音工具,支持多语言和多种语音选择,具备实时校对、角色管理和精准音频控制功能。用户可通过可视化编辑器灵活调整语速、语调和音高,适用于内容创作、教育、企业营销等多种场景。同时支持与 ChatGPT 集成,提升文本转音频的效率和实用性。

讯飞译制

讯飞译制是一款基于语音识别与机器翻译技术的智能字幕制作与翻译平台,支持多语言转换与自动字幕生成,提供高精度识别、智能时间码匹配、多格式导出及配音功能,适用于短视频出海、教学视频、广告宣传等多种场景,提升内容传播效率与国际化水平。

BoldVoice

BoldVoice 是一款专注于英语发音训练的工具,结合专业口音课程与AI语音分析技术,帮助非英语母语者提升发音准确性和口语自信。用户可通过录音获得实时反馈与改进建议,并根据个人母语背景定制学习计划。应用还提供发音测试、口音对比和多场景练习功能,适用于职场、考试、日常交流及表演等领域,有效提升英语口语能力。

CoGenAV

CoGenAV是一种先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能,适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

Asyncflow v1.0

Asyncflow v1.0 是一款基于 AI 的文本转语音工具,支持超过 450 种语音选项,涵盖多种语言和风格。通过 Magic Dust AI 技术,实现快速语音克隆与高质量输出,降低训练成本。提供 API 接口,便于开发集成,适用于播客、广告、教育等多种场景,具备高效、易用和高性价比的特点。

CosyVoice 2.0

CosyVoice 2.0是一款基于深度学习的语音生成大模型,通过有限标量量化技术和新型架构设计,在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理,延迟低至150ms,广泛应用于智能助手、有声读物、视频配音及语言学习等领域,同时具备多语言支持和情感控制等功能。