Whisper Input Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。 AI项目与工具 2025年06月12日 29 点赞 0 评论 756 浏览
Multi Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具,支持将音频中不同说话人的语音精准分离至独立轨道,适用于广播级音频处理。它具备高保真音频处理能力,支持高采样率,能处理长达数小时的录音,在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域,提升音频编辑效率与质量。 AI项目与工具 2025年06月12日 55 点赞 0 评论 761 浏览
RTranslator RTranslator是一款基于AI技术的开源、免费离线翻译应用,专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能,能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术,支持多种语言,完全离线运行,保障用户隐私安全。 AI项目与工具 2025年06月12日 44 点赞 0 评论 763 浏览
面试狗 AI面试辅助工具是一款面向求职者的智能应用,支持语音识别、智能回答建议、多模式回答及简历关联等功能,帮助用户提升面试与笔试表现。用户可上传简历、截图题目,AI将生成针对性建议。工具支持多种使用方式,记录完整面试对话,便于复盘总结。适用于线上面试、双机位面试、在线笔试等多种场景。 AI项目与工具 2025年06月12日 57 点赞 0 评论 765 浏览
爱幕字幕编辑器 一款在线免费字幕编辑器,爱幕其核心优势在于提供了全面的字幕处理功能,支持视频转码、语音识别、字幕翻译和一键字幕压制等。 字幕配音 2025年06月05日 36 点赞 0 评论 771 浏览
Moshi Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型,具备听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语,主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。 AI项目与工具 2025年06月12日 73 点赞 0 评论 772 浏览
PyVideoTrans PyVideoTrans是一款开源的视频翻译配音工具,支持多语言处理,利用先进的语音识别和翻译技术,实现视频内容的自动翻译,并添加自然流畅的配音和同步字幕。该工具适用于影视后期、教育、企业宣传及自媒体创作等场景,帮助内容创作者跨越语言障碍,扩大受众群体。 AI项目与工具 2025年06月12日 100 点赞 0 评论 776 浏览