AndroidLab AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。 AI项目与工具 2025年06月12日 38 点赞 0 评论 451 浏览
Agent Agent-S 是一款基于图形用户界面(GUI)的人机交互自动化框架,通过经验增强的分层规划和代理-计算机接口(ACI),实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型(MLLMs)进行推理和控制,并具备持续学习和跨操作系统通用性的特点,适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。 AI项目与工具 2025年06月12日 50 点赞 0 评论 465 浏览
Migician Migician是一款由多所高校联合开发的多模态大语言模型,专为多图像定位任务设计。它基于大规模数据集MGrounding-630k,采用端到端架构和两阶段训练方法,支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域,具有高效的推理能力和灵活的输入方式。 AI项目与工具 2025年06月12日 90 点赞 0 评论 470 浏览
蓝心大模型 蓝心大模型是由vivo研发的通用大模型矩阵,包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色,蓝心语音大模型支持多语言,蓝心图像大模型融合了中国特色和东方美学,蓝心多模态大模型则提供了流畅的视频对话体验。 AI项目与工具 2025年06月12日 76 点赞 0 评论 473 浏览
Pixtral Large Pixtral Large是一款由Mistral AI开源的超大规模多模态模型,具备1240亿参数,支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口,能在多语言环境中处理复杂文档和多图像场景,广泛应用于教育、医疗、客服和内容审核等领域。 AI项目与工具 2025年06月12日 39 点赞 0 评论 481 浏览
ShowUI ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型,旨在提升图形用户界面(GUI)助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用,实现了高效的零样本截图定位和GUI自动化功能,广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。 AI项目与工具 2025年06月12日 27 点赞 0 评论 484 浏览
InternVideo2.5 InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型,具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务,适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。 AI项目与工具 2025年06月12日 50 点赞 0 评论 491 浏览
Flame Flame是一款开源的多模态AI模型,能够将UI设计截图转换为高质量的现代前端代码。它支持React等主流框架,具备动态交互、组件化开发和高代码质量的特点。Flame通过创新的数据合成方法提升代码多样性与准确性,适用于快速原型开发、提升开发效率及辅助学习等多种场景。其训练数据、模型和测试集均已开源,为前端开发提供了高效的工具支持。 AI项目与工具 2025年06月12日 87 点赞 0 评论 496 浏览
MagicQuill MagicQuill是一款基于AI的开源图像编辑工具,提供智能化的局部编辑功能。其核心功能包括AI驱动的智能建议、精确的像素级编辑(如添加、删除和颜色调整),以及多种定制化工具(如添加笔刷、减去笔刷和颜色笔刷)。此外,它还具备实时意图预测和参数调整能力,支持多模态大语言模型和扩散模型的协作,适用于个人娱乐、教育、专业设计及商业应用等多个领域。 AI项目与工具 2025年06月12日 85 点赞 0 评论 501 浏览