视觉语言 - 智狐AI导航

Vision Parse

Vision Parse 是一款开源工具，旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力，包括文本和表格，并能保持原有格式与结构。此外，Vision Parse 支持多种视觉语言模型，确保解析的高精度与高速度。其应用场景广泛，涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

AI项目与工具 2025年06月12日 72 点赞 0 评论 615 浏览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型，通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作，如放大区域或选择帧，以捕捉细节。采用两阶段训练方法，结合指令调优和好奇心驱动的强化学习，提升视觉推理性能。在多个基准测试中表现优异，适用于视觉问答、视频理解等任务，广泛应用于科研、教育、工业质检和内容创作等领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 613 浏览

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架，结合视觉语言模型与三维操作技术，实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法，支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制，提升操作精度与适应性，适用于日常操作、工业自动化及服务机器人等场景。

AI项目与工具 2025年06月12日 53 点赞 0 评论 597 浏览

Qwen2vl

Qwen2VL-Flux 是一款基于多模态图像生成的模型，结合了 Qwen2VL 和 FLUX 技术。它支持多种生成模式，包括变体生成、图像到图像转换、智能修复和 ControlNet 引导生成，并具备深度估计和线条检测功能。该模型提供灵活的注意力机制和高分辨率输出，适用于艺术创作、内容营销、游戏开发等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 586 浏览

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型，支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项，适用于不同场景。其基于开源框架开发，易于扩展，可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

AI项目与工具 2025年06月12日 23 点赞 0 评论 580 浏览

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型，支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器，具备强大的图像感知、数学推理和OCR能力。在长上下文（128K）和复杂任务中表现优异，尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 570 浏览

Docmatix

Docmatix 是一个专为文档视觉问答任务设计的大规模数据集，包含240万张图像和950万个问题-答案对，源自130万个PDF文档。数据集覆盖广泛，包括扫描图片、PDF文件和数字文档，且具有高质量的问答对。Docmatix 支持模型训练和微调，可用于训练视觉语言模型，提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。

AI项目与工具 2025年06月12日 87 点赞 0 评论 560 浏览

BALROG

BALROG是一款用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏环境中推理能力的框架。它通过程序化生成的游戏环境，测试模型的规划、空间推理及探索能力，并提供细粒度的性能指标和公开排行榜，以促进AI技术的发展，适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 558 浏览

妙构

妙构是一款基于AI技术的视频内容分析工具，能够从视觉、音频和创意结构等多个维度对视频进行深度解析，提供专业的优化建议。其功能包括趋势分析、案例学习、智能反馈等，适用于视频创作者、内容策划及营销人员，帮助提升视频质量与传播效果。

AI项目与工具 2025年06月11日 86 点赞 0 评论 555 浏览

Tennr

Tennr是一款利用AI技术优化医疗文档处理的平台，核心为RaeLM™视觉语言模型，支持文档分类、信息提取、资格审核等功能，广泛应用于患者入院、转诊管理、保险索赔等场景，显著提高医疗服务效率并降低人力依赖。

AI项目与工具 2025年06月12日 93 点赞 0 评论 539 浏览

视觉语言

首页

视觉语言

列表

默认

浏览次数

发布日期