编码

ScreenAI

ScreenAI是一款专为理解和处理用户界面(UI)及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系,并生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息,并采用自回归解码器生成自然语言响应。此外,ScreenAI还能适应不同屏幕格式,提供精确的UI导航和内容摘要功能。

BiGR

BiGR是一种基于二进制编码的条件图像生成模型,集成了生成与判别任务于同一框架,支持高质量图像生成、视觉辨别和编辑。它通过掩码建模机制和二进制转码器实现高效的图像重建与预测,无需针对特定任务进行结构修改或参数调整,适用于多种视觉任务,如艺术创作、内容生成、广告设计、图像修复等。

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

GPTs Works

一个开源的第三方GPTs商店,提供具有网站和浏览器扩展的GPTs。它提供了一个超过10万个第三方GPTs的集合,可以通过矢量搜索进行访问。

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

ART

ART(Anonymous Region Transformer)是一种新型多层透明图像生成技术,支持基于全局文本提示和匿名区域布局生成多个独立透明图层(RGBA格式)。通过逐层区域裁剪机制,显著提升生成效率,速度快于传统方法12倍以上。具备高质量自编码器,支持50层以上的图像生成,减少图层冲突。广泛应用于艺术设计、内容创作、广告营销及科研等领域。

CopyCoder

CopyCoder是一款创新型AI编程工具,主要功能包括图像上传与分析、编码提示生成、跨平台适配以及全栈应用生成。它通过图像识别技术将设计图转化为详细的编码提示词,支持前端到后端的全流程开发,并具备二次生成能力,适用于快速原型开发、Web应用构建、UI/UX设计实现及教学场景。其核心优势在于提升开发效率、保持前后端一致性,同时助力开发流程的标准化。

ENEL

ENEL是一种无编码器架构的3D大型多模态模型,通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略,在3D对象分类、字幕生成和视觉问答等任务中表现出色,性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

Fireworks f1

Fireworks f1 是一款专为复杂推理任务设计的复合型 AI 模型,通过整合多个开源模型提升性能与可靠性。支持开发者通过提示词快速构建复杂 AI 应用,已在编码、对话及数学领域展现卓越能力。同时提供标准版和轻量版供用户选择,并在 AI Playground 提供免费体验。

Pixtral Large

Pixtral Large是一款由Mistral AI开源的超大规模多模态模型,具备1240亿参数,支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口,能在多语言环境中处理复杂文档和多图像场景,广泛应用于教育、医疗、客服和内容审核等领域。