Suno AI Suno AI 是由 Anthropic 公司开发的一款 AI 音乐和语音生成工具。 仅使用文本提示即可生成高质量的歌声、乐器和完整的音乐作品。 Ai语音工具 2025年06月05日 34 点赞 0 评论 562 浏览
KeySync KeySync是一种高分辨率口型同步工具,由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架,结合掩码策略和视频分割模型,实现音频与唇部动作的精准对齐。支持高清视频生成,具备遮挡处理、减少表情泄露等功能,在视觉质量、时间连贯性和同步精度上优于现有方法,适用于自动配音、虚拟形象、视频会议等多场景应用。 AI项目与工具 2025年06月11日 32 点赞 0 评论 561 浏览
Movie Gen Movie Gen是Meta开发的一款AI视频生成与编辑工具,支持根据文本提示生成高清视频并提供同步音频配制。该工具具备强大的视频生成能力,可创建长达16秒的高清视频,并支持照片定制化视频生成和精准编辑功能。此外,它还拥有先进的音频生成技术,能够生成高质量的环境音效和背景音乐。当前,Movie Gen主要服务于Meta内部团队及部分合作伙伴,未来有望推广至更广泛的用户群体。 --- AI项目与工具 2025年06月12日 30 点赞 0 评论 561 浏览
Wavtool Wavtool 是一款基于浏览器的 AI 音频创作平台,支持录制、编曲、混音和导出音乐,提供 AI 辅助创作功能,支持多轨处理及高级合成工具。用户可通过浏览器直接操作,无需安装软件,适合音乐爱好者、专业人士及教育用途。 AI项目与工具 2025年06月12日 20 点赞 0 评论 560 浏览
Gemini Gemini是Google DeepMind推出的全新AI模型,集成了多模态推理功能,超越了以往模型的性能,适用于科学文献洞察、竞争性编程等多种应用场景。 Ai平台模型 2025年06月05日 100 点赞 0 评论 559 浏览
OmniAudio OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。 AI项目与工具 2025年06月12日 95 点赞 0 评论 557 浏览
EmotiVoice EmotiVoice是网易有道推出的开源文本到语音系统,支持中英文及2000+音色,能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能,提供Web界面和API接口,适用于有声读物、智能助手、教育、客服等场景,技术上支持高效部署与模型微调。 AI项目与工具 2025年06月12日 30 点赞 0 评论 557 浏览
INFP INFP是一款基于音频驱动的头部生成框架,专为双人对话设计,具备自动角色转换功能。它通过两个阶段实现头部生成:基于动作的头部模仿和音频引导的动作生成。同时,INFP提出了大规模双人对话数据集DyConv,推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景,支持实时互动并可调节生成风格。 AI项目与工具 2025年06月12日 62 点赞 0 评论 554 浏览
Allavsoft 一款专业的视频下载和转换工具,Allavsoft支持从 YouTube、Spotify、Vimeo 等 10000 多个网站下载视频和音频。用户可以轻松下载高清视频、音乐视频、播放列表等,并将其转换为 MP4、MP3、AVI 等多种格式。 视频素材 2025年06月05日 59 点赞 0 评论 549 浏览