自回归 - 智狐AI导航

Llama 3.3

Llama 3.3是一款由Meta AI开发的70B参数大型多语言预训练语言模型，支持英语、德语、法语等8种语言的输入输出。它具备长上下文窗口、高效运行和低成本的特点，可与第三方工具集成，广泛应用于聊天机器人、客户服务、语言翻译、内容创作及教育等领域。

AI项目与工具 2025年06月12日 71 点赞 0 评论 828 浏览

GPDiT

GPDiT是一种由多所高校和企业联合开发的视频生成模型，结合了扩散模型与自回归模型的优势，具备高质量视频生成、视频表示学习、少样本学习和多任务处理能力。其核心技术包括轻量级因果注意力机制和无参数的旋转基时间条件策略，提升了生成效率与质量。该模型适用于视频创作、编辑、内容理解及创意生成等多种应用场景。

AI项目与工具 2025年06月11日 81 点赞 0 评论 845 浏览

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具，支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型（CFM）和 Vocoder，实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率，并提供快速与高音质两种推理模式，适用于音乐创作、音频处理及个性化音乐生成等场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 872 浏览

GigaTok

GigaTok 是一款基于语义正则化的高参数视觉分词器，支持自回归图像生成，具备优异的图像重建与生成能力。通过一维架构和非对称扩展策略，实现高效计算与稳定训练。适用于图像生成、编辑、数据增强及多模态应用，具有广泛的技术拓展性。

AI项目与工具 2025年06月11日 74 点赞 0 评论 938 浏览

ARTalk

ARTalk是由东京大学与日本理化学研究所联合开发的语音驱动3D头部动画生成框架，基于自回归模型实现实时、高同步性的唇部动作和自然表情生成。它通过多尺度运动码本和滑动时间窗口技术提升动画质量，并引入风格编码器实现个性化风格适配。该工具在唇部同步、表情自然性和风格一致性方面优于现有技术，适用于虚拟现实、游戏开发、动画制作及人机交互等领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 969 浏览

Qwen2.5

Qwen2.5-Coder是一款开源代码生成模型，覆盖多种规模参数，支持超过40种编程语言，擅长代码生成、推理、修复及多语言支持。其旗舰模型在多项基准测试中表现优异，具备强大的长上下文处理能力和人类偏好对齐特性。适用于日常编程、代码学习、教育、代码审查及自动化测试等场景。

AI项目与工具 2025年06月12日 87 点赞 0 评论 1007 浏览

自回归

首页

自回归

列表

默认

浏览次数

发布日期

Llama 3.3

GPDiT

InspireMusic

GigaTok

ARTalk

Qwen2.5

自回归 首页 自回归

列表 默认 浏览次数 发布日期

Llama 3.3

GPDiT

InspireMusic

GigaTok

ARTalk

Qwen2.5

自回归

首页

自回归

列表

默认

浏览次数

发布日期