语音

MiniMax 大语言模型

它基于海量中文数据训练而成,拥有超过1000亿个参数,能够处理上百TB的文本数据。

Quick Mock

Quick Mock 是一款由 MirWork AI 开发的 AI 驱动型面试准备工具,能够将职位描述转化为定制化模拟面试体验。用户可通过 Chrome 扩展程序与 AI 面试官进行实时语音对话,并获得详细的反馈和评分。该工具支持与 LinkedIn 等平台集成,简化了面试练习流程,适用于求职者、企业培训及教学辅助等多种场景,有效提升沟通能力和面试表现。

NewsBang

NewsBang是一款基于AI技术的新闻应用,提供无偏见、深度的新闻洞察。通过整合多源信息生成简洁摘要,并支持实时问答、语音播放及个性化推荐等功能,帮助用户高效获取关键信息。适用于忙碌人群、新闻爱好者及投资者等,满足多样化信息需求。

文小言电脑版

文小言电脑版是一款功能全面的桌面级智能助手,通过自然语言处理技术为用户提供文档解析、智能搜索、写作辅助等功能。它支持多格式文件的一键解析,提供个性化推荐和跨平台同步,能够有效提升办公、学习和生活的效率,适用于撰写报告、制作PPT、备考复习等多种场景。

新壹视频大模型

新壹视频大模型是一款AI驱动的视频创作平台,具备自动生成剧本、情感化语音合成、3D元素生成和高清视频输出等功能。该平台通过集成自主研发的AI算法和深度学习技术,简化了视频创作流程,提高了制作效率,降低了成本,同时提升了视频的整体质量和用户体验。其应用场景广泛,涵盖教育、医疗、文化旅游、金融管理和广电传媒等多个领域。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型,基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列,通过掩码处理和去噪生成高质量音频,保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能,具有非自回归特性,提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

AI Transcribe

Transcribe 是一个基于 OpenAl 训练并开源的录音转文字工具,支持英语、中文等多种语言,最大的优点就是无需下载大型的模型文件。

Sonantic.io

Sonantic Limited是一个利用人工智能,通过其API及网络应用程序进行内容创作、分析、编辑及分发的文字转语音工具。

Futuretools工具

FutureTools收集并组织了所有最好的AI工具,所以你也可以成为超人!