图像

AnyCharV

AnyCharV是一款由多所高校联合研发的角色可控视频生成框架,能够将任意角色图像与目标场景结合,生成高质量视频。它采用两阶段训练策略,确保角色细节的高保真保留,并支持复杂的人-物交互和背景融合。该工具兼容多种文本生成模型,具备良好的泛化能力,适用于影视制作、艺术创作、虚拟现实等多个领域。

Avatar AI

人工智能成像模型,可以从你的照片中生成逼真的4K头像。它将方形头像扩展为2:3的4K全尺寸AI照片,并可以将其动画化为带有文本转语音或您自己的声音的AI视频。

MAETok

MAETok是一种基于掩码建模的图像标记化方法,通过自编码器结构学习更具语义丰富性的潜在空间,提升图像生成质量与训练效率。它支持高分辨率图像生成,具备多特征预测能力和灵活的潜在空间设计,适用于娱乐、数字营销、计算机视觉等多个领域。实验表明其在ImageNet数据集上表现优异。

LongLLaVA

LongLLaVA是由香港中文大学(深圳)研究团队开发的多模态大型语言模型,结合Mamba和Transformer模块,利用2D池化技术压缩图像token,大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异,特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化,支持多种多模态输入处理,广泛应用于视频分析、医学影像诊断、环境监测等领域。

Story

Story-Adapter是一种无需额外训练的长篇故事可视化框架,通过迭代优化和全局参考交叉注意力模块,提升图像生成的质量与细节表现。该工具适用于多种场景,包括故事创作、教育学习、娱乐游戏、广告营销以及影视制作等,特别适合需要将文字转化为视觉化内容的场合。

绘世启动器

绘世启动器是由B站UP主@秋葉aaaki开发的电脑桌面应用,旨在简化Stable Diffusion-WebUI项目的启动和管理。它支持一键启动、修复、更新、模型下载、模型管理和模型训练等功能,特别适合低配电脑和无编程基础的用户。启动器内置疑难解答系统,能够诊断并解决常见错误,同时支持部署SD-WebUI、ComfyUI等多种WebUI界面,便于用户构建完整的环境。

Kerqu.Ai

Kerqu.Ai是一款基于AIGC技术的跨境电商AI工具,提供多语言文案生成、图像编辑、数据分析等功能,帮助用户快速生成吸引人的产品描述和专业图片,优化电商平台展示效果,助力品牌全球化发展。

Luminar Neo

Luminar Neo 是一款基于人工智能技术的照片编辑软件,适用于摄影爱好者和专业人士。其核心功能包括 AI 天空替换、AI 增强、AI 蒙版、人像处理、生成式工具等,支持多种图像格式和跨平台使用。用户可通过预设、滤镜和批量处理提升效率,同时能与 Photoshop 和 Lightroom 集成。适合风景、人像、创意设计及商业摄影等多种应用场景。

UnblurImage

UnblurImage 是一款基于 AI 技术的图像处理工具,可有效去除图片模糊并提升画质。支持多种图片格式,提供去模糊、细节增强和分辨率提升等功能,适用于电商、社交媒体、照片打印及个人用途等多种场景,操作简便且完全免费。