OCR - 智狐AI导航

OmniParser

OmniParser是一款由微软研究院开发的屏幕解析工具，能够将UI截图转换为结构化数据，通过识别可交互图标和提取功能语义，提升基于大型语言模型的UI代理系统的性能。它支持跨平台应用，无需依赖额外信息，适用于自动化软件测试、虚拟助手、辅助技术等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 599 浏览

掌上识别王

一款功能丰富的文字识别和图片转文字的工具类软件，掌上识别王能够实现高精度的文字识别，支持多种图片格式和文档。

格式转换 2025年06月05日 73 点赞 0 评论 599 浏览

PDF24

一款提供全面的 PDF 解决方案的免费软件。用户可以通过 PDF24 在线和离线工具轻松合并、压缩、编辑和转换 PDF 文件。

格式转换 2025年06月05日 91 点赞 0 评论 593 浏览

Docling 是一款开源工具，支持多种文档格式的解析与转换，包括 PDF、DOCX、PPTX、图片和 HTML。它通过高级 PDF 理解和 OCR 技术，将文档内容转换为统一的结构化格式（如 Markdown 和 JSON）。Docling 可与 LlamaIndex 和 LangChain 集成，增强文档的检索和问答能力，并提供简洁的命令行界面，适用于自动化文档处理、数据科学、知识管理和信息检

AI项目与工具 2025年06月12日 41 点赞 0 评论 590 浏览

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型，基于LLaVA架构设计，包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出，适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术，实现了跨模态任务的精准处理与高效输出。

AI项目与工具 2025年06月12日 14 点赞 0 评论 589 浏览

轻闪PDF

AI驱动的PDF工具，提供编辑、转换、OCR识别、签名、注释、与PDF对话等功能，支持桌面端、移动设备与浏览器访问。

格式转换 2025年06月05日 78 点赞 0 评论 588 浏览

GOT-OCR2.0

创新的OCR模型，它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景，GOT-OCR 2.0都能提供强大的支持。

Ai平台模型 2026年06月21日 0 点赞 0 评论 584 浏览

MonkeyOCR

MonkeyOCR是由华中科技大学与金山办公联合开发的文档解析模型，能够高效地将非结构化文档内容转换为结构化信息。其支持多种文档类型和语言，处理复杂文档（如公式、表格）效果显著，处理速度达每秒0.84页。基于SRR三元组范式和MonkeyDoc数据集，模型在准确性和效率上表现优异，适用于自动化业务流程、数字存档、智能教育、医疗记录管理及学术研究等场景。

AI项目与工具 2025年06月11日 15 点赞 0 评论 584 浏览

SmolDocling

SmolDocling-256M-preview 是一款轻量级多模态文档处理模型，能将图像文档高效转换为结构化文本，支持文本、公式、图表等多种元素识别。模型参数量仅256M，推理速度快，适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能，并兼容Docling，适用于文档数字化、科学研究及移动环境应用。

AI项目与工具 2025年03月22日 98 点赞 0 评论 583 浏览

Mistral OCR

Mistral OCR 是 Mistral AI 推出的高效 OCR 工具，支持多语言、多格式文档处理，准确率高达 99.02%。具备结构化输出、高速处理、多模态识别及 Doc-as-prompt 功能，适用于科研、文化遗产保护及企业文档管理等场景。

AI项目与工具 2025年06月12日 76 点赞 0 评论 581 浏览

OCR

首页

OCR

列表

默认

浏览次数

发布日期