模型

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架,结合视觉语言模型与三维操作技术,实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法,支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制,提升操作精度与适应性,适用于日常操作、工业自动化及服务机器人等场景。

OmniParser

OmniParser是一款由微软研究院开发的屏幕解析工具,能够将UI截图转换为结构化数据,通过识别可交互图标和提取功能语义,提升基于大型语言模型的UI代理系统的性能。它支持跨平台应用,无需依赖额外信息,适用于自动化软件测试、虚拟助手、辅助技术等多个领域。

VideoJAM

VideoJAM是Meta开发的视频生成框架,旨在提升视频运动连贯性。通过联合学习外观与运动信息,在训练阶段同时预测像素和运动特征,并在推理阶段利用动态引导机制优化生成结果。该技术具备高度通用性,可适配多种视频生成模型,无需调整训练数据或模型结构,已在多项基准测试中表现优异,适用于影视、游戏、教育等多个领域。

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。

Eagle

Eagle是一个由英伟达开发的多模态大模型,专长于处理高分辨率图像,提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构,通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源,适用于多个行业,具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

Oryx

Oryx是一款由清华大学、腾讯和南洋理工大学联合开发的多模态大型语言模型,专为处理视觉数据设计。其核心技术包括预训练的OryxViT模型和动态压缩模块,支持任意分辨率的图像处理及高效的视觉数据压缩。Oryx在空间和时间理解上表现优异,广泛应用于智能监控、自动驾驶、人机交互、内容审核、视频编辑及教育等领域。

Awesome MCP ZH

一个专为中文用户打造的 MCP资源合集! 包括有 MCP 的基础介绍、玩法、客户端、服务器和社区资源,帮你快速上手这个 AI 界的“万能插头”。

Aria

Aria是首个开源多模态原生混合专家(MoE)模型,支持文本、代码、图像和视频的综合处理,具有强大的多模态任务处理能力和长上下文窗口,可高效应对复杂长数据。模型开源且可扩展,适用于多模态AI领域的研究与应用。

RegionDrag

RegionDrag是一种基于区域的图像编辑技术,由香港大学和牛津大学联合开发。该技术利用扩散模型,让用户通过定义手柄区域和目标区域来实现快速且精确的图像编辑。RegionDrag在单次迭代中完成编辑任务,显著减少编辑时间,同时采用注意力交换技术增强编辑的稳定性和自然性。主要应用领域包括数字艺术与设计、照片编辑、虚拟现实、游戏开发以及电影和视频制作等。

通义代码模式

通义代码模式是一款基于大语言模型的AI工具,支持用户通过自然语言指令生成代码并实时预览结果。它适用于快速开发动态网页和交互式应用,涵盖前端页面生成、数据可视化、小游戏开发等多种功能。无论是开发者还是非专业人士,都能通过此工具轻松创建各类应用,降低开发门槛,提升效率。