图像

Artbreeder

Artbreeder 将创造力和协作结合在一起。重新混合您看到的任何图像,使其成为您自己的图像。关注您最喜爱的创作者,并与充满活力的 AI 艺术社区分享您的作品。

PixelHacker

PixelHacker是一款由华中科技大学与VIVO AI Lab联合开发的图像修复模型,采用潜在类别引导机制,通过线性注意力实现结构与语义一致性的高质量修复。基于大规模数据集训练并经过多基准微调,支持多种图像类型与分辨率。适用于照片修复、对象移除、艺术创作、医学影像及文化保护等领域。

ImgEdify

ImgEdify是一个集成AI图像生成、编辑及转换功能的AI图像生成器平台,提供完整的图像创作与编辑套件,结合生成、编辑和转换功能,适合创作者、企业及设计师。

魔力工作室

汇集了Canva可画最好的AI功能,帮助你以前所未有的轻松、快捷和创造力完成从第一次头脑风暴到成品的整个过程。

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型,专注于图形用户界面(GUI)的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力,可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色,尤其在GUI操作数据集上显著超越现有模型。

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具,专为多模态眼科图像生成设计。通过自然语言提示,EyeDiff能够捕捉常见及罕见眼病的关键特征,显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制,结合潜在扩散模型(LDM),生成高质量、与文本高度一致的图像,适用于数据增强、疾病筛查、数据共享及医学教育等场景。

WhatFontIs

最好的字体查找工具,通过字体是什么来发现版式的艺术,您的最终字体查找工具,用于识别图像中的任何字体。

No

一款AI 驱动的可让您轻松地从图像中删除背景的工具。它利用深度学习和神经网络来智能检测和消除背景,为您省去繁琐的手动编辑的麻烦。

NVLM

NVLM是NVIDIA研发的多模态大型语言模型,涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构(NVLM-D、NVLM-X、NVLM-H),并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术,广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。