回归 - 智狐AI导航

xAR

xAR是由字节跳动与约翰·霍普金斯大学联合研发的自回归视觉生成框架，采用“下一个X预测”和“噪声上下文学习”技术，提升视觉生成的准确性和效率。其支持多种预测单元，具备高性能生成能力，在ImageNet数据集上表现优异，适用于艺术创作、虚拟场景生成、老照片修复、视频内容生成及数据增强等多种应用场景。

AI项目与工具 2025年06月12日 30 点赞 0 评论 542 浏览

Video Diffusion Models

Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力，通过创新的梯度条件方法和自回归扩展技术，生成了具有高度时间连贯性和质量的视频样本。

Ai绘画生成 2026年06月21日 0 点赞 0 评论 545 浏览

Fluid

Fluid是一种基于连续标记和随机生成顺序的文本到图像生成模型，具有卓越的视觉表现力和全局结构捕捉能力。它通过自回归架构和Transformer模型，逐步预测序列中的下一个元素，构建与文本提示相匹配的高质量图像。Fluid在多个基准测试中取得了优异成绩，并广泛应用于艺术创作、媒体娱乐、广告营销等领域。

AI项目与工具 2025年06月12日 47 点赞 0 评论 547 浏览

Weka3：Java机器学习软件

使用 Weka 教授机器学习和数据挖掘。

Ai编程建站 2026年06月21日 0 点赞 0 评论 569 浏览

HART

HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型，能够生成1024×1024像素的高分辨率图像，质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块，HART实现了高效的图像生成，并在多个指标上表现出色，包括重构FID、生成FID以及计算效率。

AI项目与工具 2025年06月12日 93 点赞 0 评论 572 浏览

Loong

Loong是一种基于自回归大型语言模型的长视频生成工具，能够生成长达一分钟以上的高质量视频。其核心技术包括统一序列建模、渐进式训练方法及损失重新加权策略，确保生成视频在内容连贯性、动态丰富性和场景过渡上的卓越表现。Loong广泛适用于娱乐、教育、广告等多个领域，助力用户快速生成个性化、专业化的视频内容。

AI项目与工具 2025年06月12日 60 点赞 0 评论 573 浏览

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具，集成了自回归和离散扩散建模技术，可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率，减少了采样步骤，适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 581 浏览

JanusFlow

JanusFlow是一款集成了自回归语言模型与校正流技术的多模态AI模型，能够在单一框架内高效完成图像理解和生成任务。它通过解耦视觉编码器和表示对齐策略，显著提升了模型在视觉理解与图像生成上的表现，广泛应用于图像生成、多模态内容创作、视觉问答、图像理解和辅助设计等多个领域。

AI项目与工具 2025年06月12日 20 点赞 0 评论 586 浏览

VideoWorld

VideoWorld是由北京交通大学、中国科学技术大学与字节跳动合作开发的深度生成模型，能够通过未标注视频数据学习复杂知识，包括规则、推理和规划能力。其核心技术包括自回归视频生成、潜在动态模型（LDM）和逆动态模型（IDM），支持长期推理和跨环境泛化。该模型在围棋和机器人控制任务中表现优异，且具备向自动驾驶、智能监控等场景扩展的潜力。

AI项目与工具 2025年06月12日 66 点赞 0 评论 610 浏览

LanDiff

LanDiff是一种结合自回归语言模型和扩散模型的文本到视频生成框架，采用粗到细的生成策略，有效提升语义理解与视觉质量。其核心功能包括高效语义压缩、高质量视频生成、语义一致性保障及灵活控制能力。支持长视频生成，降低计算成本，适用于视频制作、VR/AR、教育及社交媒体等多个领域。

AI项目与工具 2025年06月12日 92 点赞 0 评论 641 浏览

回归

首页

回归

列表

默认

浏览次数

发布日期

xAR