谛韵DiffRhythm DiffRhythm(谛韵)是一款由西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型技术,能在10秒内生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示,即可快速获得高质量音乐作品。其支持多语言输入,具备歌词对齐、风格定制、非自回归生成等技术优势,广泛应用于音乐创作、影视配乐、教育及个人创作等领域。 AI项目与工具 2025年06月12日 70 点赞 0 评论 746 浏览
HiCo HiCo是一款基于扩散模型的层次化可控布局到图像生成工具,采用多分支结构设计,能够精确控制对象的位置和文本描述,解决复杂布局中的常见问题。该工具支持高分辨率图像生成,兼容多种快速生成插件,并在多目标布局生成任务中表现出色,适用于图像编辑、游戏设计、虚拟现实等多个领域。 AI项目与工具 2025年06月12日 12 点赞 0 评论 749 浏览
F F-Lite是一款由Freepik与FAL开源项目联合开发的10B参数文本到图像生成模型,基于版权安全数据集训练,支持商业应用。它采用T5-XXL文本编码器,结合扩散模型架构,实现高精度图像生成。支持多分辨率输出,包含256、512和1024像素,并推出专为纹理优化的F-Lite Texture版本。模型通过强化学习和多项优化技术提升生成质量与效率,适用于创意设计、内容创作、游戏开发等多个领域。 AI项目与工具 2025年06月11日 10 点赞 0 评论 750 浏览
Pix2Gif Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型,能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成,并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制,确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。 AI项目与工具 2024年01月01日 30 点赞 0 评论 750 浏览
PixWeaver PixWeaver是一个基于人工智能的图像创作平台。它能帮助用户无需学习复杂的设计软件,通过语音或文字描述就可以生成理想中的图像。 Ai绘画生成 2025年06月05日 47 点赞 0 评论 751 浏览
LeviTor LeviTor是一款由多所高校和企业联合研发的图像到视频合成工具,它利用深度信息和K-means聚类点来控制视频中3D物体的轨迹,无需显式3D轨迹跟踪。通过高质量视频对象分割数据集训练,该工具能精准捕捉物体运动与交互,支持用户通过简单的2D图像操作实现复杂的3D效果,大幅降低了技术门槛,广泛应用于电影特效、游戏动画、虚拟现实等领域。 AI项目与工具 2025年06月12日 52 点赞 0 评论 753 浏览
Flex.2 Flex.2-preview是Ostris开发的开源文本到图像生成模型,具备80亿参数规模。支持长文本输入、图像修复和多模态控制输入,适用于创意设计、图像修复和内容生成等多种场景。模型基于扩散框架,采用多通道输入处理和高效推理算法,可通过ComfyUI或Diffusers库集成使用,适合实验性开发和个性化定制。 AI项目与工具 2025年06月11日 20 点赞 0 评论 754 浏览
3DHM 3DHM是一项由加州大学伯克利分校开发的3D人体动作生成技术,能够从单张照片生成动态人体视频,具备动作生成、编辑、评估、纹理修复、人体渲染及动作模仿等功能。该技术通过学习人体先验知识和3D运动序列,结合扩散模型和4DHumans预测模型,广泛应用于电影特效、虚拟现实、游戏开发等领域,为动画制作和人体动作模拟提供了创新解决方案。 AI项目与工具 2025年06月12日 13 点赞 0 评论 756 浏览
SeedFoley SeedFoley 是由字节跳动开发的端到端视频音效生成模型,能智能识别并生成与视频内容高度同步的动作和环境音效。通过融合视频时空特征与扩散生成技术,提升音效的准确性和细腻度,支持多种视频长度,适用于生活Vlog、短片制作、游戏视频等多种场景,显著提升视频的沉浸感和表现力。 AI项目与工具 2025年06月12日 63 点赞 0 评论 757 浏览
Index Index-AniSora是由哔哩哔哩开发的动漫视频生成模型,支持多种动画风格的生成,涵盖番剧、国创、VTuber等内容。其核心技术包括扩散模型、时空掩码模块和Transformer架构,具备图像到视频生成、帧插值、局部引导等能力。模型提供高质量数据集,适用于动画制作、创意验证、教育及营销等多个领域。 AI项目与工具 2025年06月11日 32 点赞 0 评论 757 浏览