模型 - 智狐AI导航

Boximator

Boximator是一种视频合成技术，通过引入硬框和软框实现对视频中对象的位置、形状或运动路径的精细控制。它基于视频扩散模型，通过多阶段训练和自跟踪技术，确保视频合成过程中的高质量和逼真度。应用场景包括电影和电视制作、游戏开发以及VR和AR内容创作。

AI项目与工具 2024年02月20日 89 点赞 0 评论 651 浏览

SDXL

SDXL-Lightning是一种基于扩散模型的文本到图像生成技术，由字节跳动的研究团队开发。该模型通过结合渐进式和对抗式蒸馏方法，能够在一至少数步骤内快速生成1024像素分辨率的高质量图像。该模型提供开源模型和权重，支持与现有的LoRA模块和控制插件兼容，可以轻松集成到现有的图片生成系统中。核心技术包括扩散模型、渐进式蒸馏、对抗式蒸馏和鉴别器设计，以确保生成图像的质量和多样性。

AI项目与工具 2024年01月01日 91 点赞 0 评论 641 浏览

Stable Diffusion 3

Stable Diffusion 3 是一款由 Stability AI 开发的先进文本到图像生成模型，通过改进的文本渲染能力、多主题提示支持、可扩展的参数量、图像质量提升及先进的架构技术，实现了高质量和多样性的图像生成。该模型在图像生成和文本理解方面取得了显著进展，并通过 Diffusion Transformer 架构和 Flow Matching 技术提升了模型效率和图像质量。

AI项目与工具 2024年01月01日 87 点赞 0 评论 772 浏览

Mistral Large是Mistral AI开发的一款先进的大型语言模型，具备出色的多语言推理能力和强大的上下文理解能力。它在多个基准测试中表现出色，尤其是在多语言处理、推理和知识、数学与编程方面。Mistral Large支持多语言处理，并且能精确遵循指令，还支持函数调用，便于与开发者工具集集成。此外，该模型可通过Azure AI Studio和Azure Machine Learning平

AI项目与工具 2024年01月01日 86 点赞 0 评论 833 浏览

LayerDiffusion

LayerDiffusion是一种创新的AI工具，利用大规模预训练的潜在扩散模型生成具有透明度的图像。该技术引入了“潜在透明度”的概念，将图像的alpha通道透明度信息编码到潜在空间中。LayerDiffusion不仅可以生成单个透明图像，还能生成多个透明图层，支持条件控制生成和图层内容结构控制，确保高质量的图像输出。此外，它还能够生成多个透明图层，并通过共享注意力机制和低秩适应确保图层间的和谐混

AI项目与工具 2024年01月01日 69 点赞 0 评论 479 浏览

Claude 3

Claude 3是由Anthropic开发的一系列先进的人工智能模型，旨在提供强大的认知能力和处理复杂任务的能力。该模型家族包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus，它们分别针对不同的应用场景进行了优化。Claude 3 Opus在多个基准测试中超越了GPT-4/3.5和Gemini 1.0 Ultra/Pro，展示了其在智能水平上的显著优势。该

AI项目与工具 2024年01月01日 65 点赞 0 评论 673 浏览

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 848 浏览

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器，允许图像生成模型生成任意分辨率和宽高比的图像，同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm，ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

AI项目与工具 2024年01月01日 70 点赞 0 评论 550 浏览

Moondream

Moondream是一款小型的开源人工智能视觉语言模型，具有强大的图像处理能力和灵活性，能够在不同设备上运行。它基于Apache 2.0许可证，支持商业使用，并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

AI项目与工具 2024年01月01日 84 点赞 0 评论 945 浏览

PixArt

PixArt-Σ是一款基于扩散Transformer架构（DiT）的文本生成图像模型，专为生成高达4K分辨率的高质量图像而设计。该模型通过整合高级元素并采用从弱到强的训练方法，不仅提升了生成图像的保真度，还增强了图像与文本提示之间的对齐效果。PixArt-Σ的生成图像在美学质量上可媲美当前顶级的文本到图像产品，并且在遵循文本提示方面表现出色。主要功能包括4K分辨率图像生成、高保真转换、高效率训练和

AI项目与工具 2024年01月01日 82 点赞 0 评论 865 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期