生成

GenAI_Agents

一个专注于生成式AI Agents技术的开源项目,GenAI_Agents提供从基础到高级的教程与实现代码,帮助开发者学习并构建智能、交互式的AI系统。

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型,支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎,能精准捕捉语音中的语调、节奏和情感,生成自然流畅的面部表情和动作。操作简单,无需专业技能,适用于多种角色形象,涵盖社交媒体、企业营销、在线教育等多个领域,是高效内容创作的理想选择。

Boolvideo

Boolvideo是一款基于人工智能技术的视频生成工具,能够将产品链接、博客文章、图片、视频或文本内容快速转化为吸引人的视频。支持多个电商平台,具备动画视频、动态视频生成等功能,适用于电商卖家、内容创作者及市场推广人员,旨在简化视频创作流程,提高工作效率。

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。

Stable Audio Open Small

Stable Audio Open Small 是由 Stability AI 与 Arm 联合开发的轻量级文本到音频生成模型,参数量降至 3.41 亿,适配移动设备和边缘计算场景。基于深度学习与模型压缩技术,支持快速生成音效、音乐片段等音频内容,适用于实时音频生成任务。具备高效运行、低功耗、多场景应用等特点,可用于音乐创作、游戏音效、视频配乐等领域。

Freestyler

Freestyler是一款由多机构合作开发的AI工具,专注于说唱音乐的自动化生成。它通过结合语言模型、条件流匹配技术和神经声码器,实现了从歌词和伴奏到高质量说唱音频的全流程转化。Freestyler还推出了RapBank数据集,并支持零样本音色控制,广泛应用于音乐创作、现场表演、游戏音效及教育等领域。

PPTX.AI

PPTX.AI是一个只要你上传 PDF、Word 文档和文本文档或仅输入描述,PPTX.AI将会自动生成设计高雅的幻灯片,然后直接发送到您的邮箱的PPT生成工具。

FabricDiffusion

FabricDiffusion是一项由谷歌与卡内基梅隆大学联合开发的高保真3D服装生成技术,可将2D服装图像的纹理和印花高质量地转移到3D服装模型上。其核心技术基于去噪扩散模型和大规模合成数据集,生成多种纹理贴图并支持跨光照条件的精准渲染,具备优秀的泛化能力和实际应用潜力,适用于虚拟试衣、游戏开发、影视制作及时尚设计等多个领域。

Rephrase AI

Rephrase.ai 是一个根据您的照片和文本输入,转成数字人身视频的平台,帮助企业或个人定制虚拟形象、发布商业化视频。