编码

BiGR

BiGR是一种基于二进制编码的条件图像生成模型,集成了生成与判别任务于同一框架,支持高质量图像生成、视觉辨别和编辑。它通过掩码建模机制和二进制转码器实现高效的图像重建与预测,无需针对特定任务进行结构修改或参数调整,适用于多种视觉任务,如艺术创作、内容生成、广告设计、图像修复等。

CODEPAL

CODEPAL是一款AI驱动的编程辅助工具,支持30多种编程语言,具备代码生成、解释、文档生成、审阅及错误检测等功能。它适用于快速原型开发、教育培训、代码审查优化以及跨语言开发等多种场景,帮助用户提高编码效率和代码质量。

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制,在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑,实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性,支持实时编辑,并在文本引导下的图像编辑方面表现出色。

CopyCoder

CopyCoder是一款创新型AI编程工具,主要功能包括图像上传与分析、编码提示生成、跨平台适配以及全栈应用生成。它通过图像识别技术将设计图转化为详细的编码提示词,支持前端到后端的全流程开发,并具备二次生成能力,适用于快速原型开发、Web应用构建、UI/UX设计实现及教学场景。其核心优势在于提升开发效率、保持前后端一致性,同时助力开发流程的标准化。

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括

Fireworks f1

Fireworks f1 是一款专为复杂推理任务设计的复合型 AI 模型,通过整合多个开源模型提升性能与可靠性。支持开发者通过提示词快速构建复杂 AI 应用,已在编码、对话及数学领域展现卓越能力。同时提供标准版和轻量版供用户选择,并在 AI Playground 提供免费体验。

GPTs Works

一个开源的第三方GPTs商店,提供具有网站和浏览器扩展的GPTs。它提供了一个超过10万个第三方GPTs的集合,可以通过矢量搜索进行访问。

ART

ART(Anonymous Region Transformer)是一种新型多层透明图像生成技术,支持基于全局文本提示和匿名区域布局生成多个独立透明图层(RGBA格式)。通过逐层区域裁剪机制,显著提升生成效率,速度快于传统方法12倍以上。具备高质量自编码器,支持50层以上的图像生成,减少图层冲突。广泛应用于艺术设计、内容创作、广告营销及科研等领域。