R

ImageFX

ImageFX是一款由谷歌开发的基于人工智能的文本到图像生成工具,利用先进的技术生成高质量图像。其主要功能包括文本到图像生成、Expressive Chips快速调整关键词、高质量图像生成能力、SynthID数字水印以确保图像真实性和内容安全措施,如过滤暴力、冒犯内容及个人图像生成。

Boximator

Boximator是一种视频合成技术,通过引入硬框和软框实现对视频中对象的位置、形状或运动路径的精细控制。它基于视频扩散模型,通过多阶段训练和自跟踪技术,确保视频合成过程中的高质量和逼真度。应用场景包括电影和电视制作、游戏开发以及VR和AR内容创作。

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

SDXL

SDXL-Lightning是一种基于扩散模型的文本到图像生成技术,由字节跳动的研究团队开发。该模型通过结合渐进式和对抗式蒸馏方法,能够在一至少数步骤内快速生成1024像素分辨率的高质量图像。该模型提供开源模型和权重,支持与现有的LoRA模块和控制插件兼容,可以轻松集成到现有的图片生成系统中。核心技术包括扩散模型、渐进式蒸馏、对抗式蒸馏和鉴别器设计,以确保生成图像的质量和多样性。

Stable Diffusion 3

Stable Diffusion 3 是一款由 Stability AI 开发的先进文本到图像生成模型,通过改进的文本渲染能力、多主题提示支持、可扩展的参数量、图像质量提升及先进的架构技术,实现了高质量和多样性的图像生成。该模型在图像生成和文本理解方面取得了显著进展,并通过 Diffusion Transformer 架构和 Flow Matching 技术提升了模型效率和图像质量。

Mistral Large

Mistral Large是Mistral AI开发的一款先进的大型语言模型,具备出色的多语言推理能力和强大的上下文理解能力。它在多个基准测试中表现出色,尤其是在多语言处理、推理和知识、数学与编程方面。Mistral Large支持多语言处理,并且能精确遵循指令,还支持函数调用,便于与开发者工具集集成。此外,该模型可通过Azure AI Studio和Azure Machine Learning平

DUSt3R

DUSt3R是一个由芬兰阿尔托大学和Naver欧洲实验室联合研发的3D重建框架。该框架能够快速地从任意图像集合中重建出三维场景,无需事先了解相机校准或视点位置信息。DUSt3R主要功能包括快速3D重建、无需相机校准、多视图立体重建、单目和双目重建以及生成深度图、置信度图和点云图。它采用了点图表示法、Transformer网络架构和端到端训练方式,并提出了全局对齐策略来处理多视图重建任务。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

PixArt

PixArt-Σ是一款基于扩散Transformer架构(DiT)的文本生成图像模型,专为生成高达4K分辨率的高质量图像而设计。该模型通过整合高级元素并采用从弱到强的训练方法,不仅提升了生成图像的保真度,还增强了图像与文本提示之间的对齐效果。PixArt-Σ的生成图像在美学质量上可媲美当前顶级的文本到图像产品,并且在遵循文本提示方面表现出色。主要功能包括4K分辨率图像生成、高保真转换、高效率训练和

Transformer Debugger

Transformer Debugger (TDB) 是一款由OpenAI的对齐团队开发的工具,用于帮助研究人员和开发者理解和分析Transformer模型的内部结构和行为。它提供了无需编程即可探索模型结构的能力,并具备前向传递干预、组件级分析、自动生成解释、可视化界面及后端支持等功能。TDB 支持多种模型和数据集,包括GPT-2模型及其自动编码器。