模型 - 智狐AI导航

ImagePulse

ImagePulse是由魔搭社区推出的开源项目，专注于图像理解和生成模型的数据集支持。它通过将复杂任务拆解为“修改、添加、移除”“风格迁移”“人脸保持”等原子能力，构建专门的数据集，提升模型在特定任务上的性能。项目提供开源脚本，支持数据集的生成与扩展，并结合多种技术资源实现多模型协同，适用于艺术创作、视频制作、产品展示等多个领域。

AI项目与工具 2025年06月11日 71 点赞 0 评论 533 浏览

Gemma 3 QAT

Gemma 3 QAT 是谷歌推出的开源 AI 模型，采用量化感知训练技术，在降低显存需求的同时保持高性能。它支持多模态任务，具备 128,000-token 长上下文处理能力，并可在消费级 GPU 和边缘设备上运行。适用于视觉问答、文档分析、长文本生成等场景，同时兼容多种推理框架，便于部署。

AI项目与工具 2025年06月11日 44 点赞 0 评论 614 浏览

GigaTok

GigaTok 是一款基于语义正则化的高参数视觉分词器，支持自回归图像生成，具备优异的图像重建与生成能力。通过一维架构和非对称扩展策略，实现高效计算与稳定训练。适用于图像生成、编辑、数据增强及多模态应用，具有广泛的技术拓展性。

AI项目与工具 2025年06月11日 74 点赞 0 评论 946 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 856 浏览

FramePack

FramePack 是斯坦福大学推出的开源 AI 视频生成模型，通过帧上下文打包和抗漂移采样技术，实现高效、稳定的视频生成。其仅需 6GB 显存即可运行，支持实时高清视频生成，具备灵活的调度策略，适用于多种应用场景，如短视频制作、游戏开发、教育与广告等，显著降低了视频生成的硬件门槛。

AI项目与工具 2025年06月11日 23 点赞 0 评论 890 浏览

MAI

MAI-DS-R1 是微软基于 DeepSeek R1 优化的 AI 模型，具备高敏感话题响应能力（99.3%），有害内容风险降低 50%，并保持与原版相同的推理水平。支持多语言输出，适用于国际组织、企业及教育机构。已开源，可用于研究与开发，适用于内容审核、多语言客服、学术研究等多种场景。

AI项目与工具 2025年06月11日 56 点赞 0 评论 810 浏览

万相首尾帧模型

万相首尾帧模型（Wan2.1-FLF2V-14B）是一款开源视频生成工具，基于DiT架构和交叉注意力机制，可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效，适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能，且提供GitHub和HuggingFace开源资源供用户使用。

AI项目与工具 2025年06月11日 100 点赞 0 评论 786 浏览

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面（GUI）的智能代理模型，具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则，即可实现端到端的GUI任务自动化，适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术，支持高效的界面交互与精准的视觉定位。

AI项目与工具 2025年06月11日 31 点赞 0 评论 668 浏览

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型，具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法，提升语言与视觉理解效率，并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署，适用于智能交互、图像识别、视频分析及客服系统等多种场景。

AI项目与工具 2025年06月11日 68 点赞 0 评论 568 浏览

Trae 插件

Trae 插件是一款基于 AI 的编程辅助工具，支持多种编程语言和主流 IDE，提供代码补全、生成、解释、注释、单测生成及智能问答等功能，提升开发效率与代码质量。支持多模型切换，具备高度可定制性，适用于快速开发、代码优化与团队协作等场景。

AI项目与工具 2025年06月11日 32 点赞 0 评论 725 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期