编辑 - 智狐AI导航

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频，生成高质量的立体声音频或多轨乐谱，并支持自动编辑功能。琴乐大模型采用先进的技术框架，包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术，确保生成的音乐符合音乐理论和人类审美标准。

AI项目与工具 2025年06月12日 33 点赞 0 评论 694 浏览

MimicBrush

MimicBrush是一款由阿里巴巴、香港大学和蚂蚁集团联合研发的AI图像编辑工具，通过参考图像模仿和自动区域识别功能，支持对象替换、样式转换和纹理调整等多种图像编辑操作。它具备实时预览、一键编辑和高度自适应的特点，广泛应用于产品设计、时尚、美容、广告、社交媒体内容创作及电子商务等多个领域。

AI项目与工具 2024年01月01日 77 点赞 0 评论 767 浏览

Veo是Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容。Veo具备深入的自然语言理解能力，能够准确解析用户的文本提示，生成高质量、高分辨率的视频。其主要功能包括高分辨率视频输出、自然语言处理、风格适应性、创意控制与定制、遮罩编辑功能、参考图像与风格应用、视频片段的剪辑与扩展以及视觉连贯性。Veo技术目前仍处于实验阶段，但已在电影制作

AI项目与工具 2024年01月01日 34 点赞 0 评论 630 浏览

IC

IC-Light是一款由张吕敏开发的AI图像处理工具，专注于图像的光源操纵和光影重构，支持基于文本和背景条件下的图像重照明。该工具适用于多种场景，包括个人照片编辑、专业摄影后期、电商产品展示、广告和海报设计等。IC-Light具备自动抠图、光源方向选择、文本条件重照明等功能，并且支持开源获取。

AI项目与工具 2024年01月01日 56 点赞 0 评论 805 浏览

PuLID

PuLID是一种由字节跳动团队开发的个性化文本到图像生成技术，主要通过对比对齐和快速采样方法实现高效ID定制。该技术能够生成高度逼真的面部图像，同时保留原始图像的风格元素，支持灵活的个性化编辑。PuLID具有快速出图能力，无需繁琐的模型调整，且与多种现有模型兼容。它适用于艺术创作、虚拟形象定制、影视制作、广告和社交媒体等多个领域。

AI项目与工具 2024年01月01日 39 点赞 0 评论 798 浏览

Stable Artisan

Stable Artisan是一款基于Discord平台的图像和视频生成机器人服务，利用Stability AI的AI技术和模型，如Stable Diffusion 3和Stable Video Diffusion，使用户能够通过自然语言提示生成高质量的图像和视频。此外，它还提供了一系列图像编辑工具，包括搜索替换、背景去除、高清放大、扩展外延、控制素描和结构等功能，适用于创意人士、设计师、内容创作

AI项目与工具 2024年01月01日 46 点赞 0 评论 616 浏览

VideoGigaGAN

VideoGigaGAN是一款由Adobe和马里兰大学的研究人员开发的生成式视频超分辨率模型。该模型基于GigaGAN图像上采样器，通过流引导特征传播、抗锯齿处理和高频特征穿梭等技术手段，显著提升了视频的分辨率和时间一致性，同时保留了高频细节，改善了整体画质。它适用于视频画质增强、安全监控、视频编辑和后期制作等多个领域。

AI项目与工具 2024年01月01日 32 点赞 0 评论 618 浏览

DesignEdit

DesignEdit是一个由微软亚洲研究院和北京大学的研究人员共同开发的AI图像编辑框架。它采用了多层潜在分解和融合技术，能够实现对象移除、移动、调整大小、翻转、相机平移和缩放等复杂图像编辑任务。DesignEdit还支持跨图像元素的组合，特别适用于设计图像和海报的编辑。通过关键掩码自注意力机制和伪影抑制方案，DesignEdit能够在不破坏图像整体连贯性的情况下，实现高精度的空间感知图像编辑。

AI项目与工具 2024年01月01日 28 点赞 0 评论 701 浏览

SWE

SWE-agent是普林斯顿大学NLP研究团队开发的开源AI工具，旨在帮助程序员和软件工程师解决GitHub存储库中的问题。它通过智能体-计算机接口（ACI）与代码库交互，实现代码浏览、编辑、测试及执行等功能。SWE-agent在SWE-bench测试集上的表现与Devin相近，平均93秒解决问题。其功能包括拉取请求问题解决、代码编辑与修复、自动语法检查、文件查看、全目录字符串搜索、命令与反馈处理

AI项目与工具 2024年01月01日 68 点赞 0 评论 697 浏览

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 718 浏览

编辑

首页

编辑

列表

默认

浏览次数

发布日期