OCR - 智狐AI导航

AgentCPM

AgentCPM-GUI是由清华大学与面壁智能团队联合开发的开源端侧GUI代理系统，专为中文应用场景优化。基于MiniCPM-V模型，支持通过截图输入并自主执行用户指令，具备高精度GUI元素识别与OCR能力。采用强化微调和紧凑动作空间设计，提升任务执行效率与移动端适配性。适用于智能助手、自动化测试、老年人辅助及企业应用等领域。

AI项目与工具 2025年06月11日 18 点赞 0 评论 859 浏览

RepText

RepText是一款由Shakker Labs与Liblib AI联合开发的多语言视觉文本渲染框架，采用字形模仿技术实现高质量文本生成。支持多种语言及复杂排版，具备精准控制、高效兼容和自然融合等特点，广泛应用于平面设计、艺术创作和数字内容生产等领域。

AI项目与工具 2025年06月11日 85 点赞 0 评论 845 浏览

Ai PDF

Ai PDF 是一款强大的工具，可在GPTs平台上运行，旨在有效管理和操作 PDF 文件。它可以处理很大尺寸的PDF文档，Ai PDF的开发重点是提高用户满意度和生产力，无需重复上传文件。

GPTs应用 2025年06月05日 15 点赞 0 评论 830 浏览

DeepPDF

DeepPDF 是一款基于 AI 的在线 PDF 处理工具，支持文档智能问答、自动摘要生成、多语言翻译、图像与公式解析、术语解释及格式转换等功能。其特点在于保留原文排版、支持多种语言、提供高效的文档管理能力，广泛应用于教育、科研和职场场景，提升文档处理效率与信息理解能力。

AI项目与工具 2025年06月12日 61 点赞 0 评论 830 浏览

小虫快读

小虫快读（BugQR）是一款集成OCR技术和AI大语言模型的高效阅读工具，支持拍照识别、文字提取、核心内容总结及语音播放等功能。其三大总结模式（Summary、Explain、Note）满足多样化阅读需求，适用于学生、教师、研究人员、商业分析人士及法律专业人士等多个领域。免费版提供基础功能，高级版本支持内容导出。

AI项目与工具 2025年06月12日 24 点赞 0 评论 805 浏览

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型，具备强大的文本与图像理解能力，包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法，实现了从1B到30B参数规模的性能提升，并推出了视频和移动UI专用版本，为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 805 浏览

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型，基于大规模网络图像数据训练，无需语言监督即可学习有效视觉表示。其包含多个变体，参数规模从3亿到70亿不等，在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据，显著提升特定任务性能。模型具备良好的扩展性，适用于智能客服、文档处理、医疗影像分析等多个领域。

AI项目与工具 2025年06月11日 92 点赞 0 评论 802 浏览

AI速搭

AI速搭是百度智能云推出的低代码开发平台，支持可视化操作，无需编程即可快速构建智能应用。集成文心一言、人脸识别、OCR等AI能力，提供数据管理、API对接、流程控制等功能，适用于内容创作、智能客服、数据分析等多种场景，提升开发效率与智能化水平。

AI项目与工具 2025年06月12日 85 点赞 0 评论 801 浏览

[官网]万兴PDF编辑器

万兴PDF编辑器是一款功能丰富的PDF处理软件，它通过提供直观的用户界面和强大的编辑工具，使用户能够轻松地完成PDF的创建、编辑、转换和保护等任务。

排版编辑 2026年06月21日 0 点赞 0 评论 797 浏览

Surya

Surya是一款开源OCR工具包，专注于文档识别，支持90多种语言的文本提取与分析。它能够识别文档中的文本、表格、图片及标题等布局元素，并确保文本阅读顺序的准确性。凭借其高效的表格识别能力和优化的算法，Surya在处理复杂文档时表现出色，广泛应用于文档数字化、数据提取、多语言处理以及学术研究等领域。 ---

AI项目与工具 2025年06月12日 16 点赞 0 评论 783 浏览

OCR

首页

OCR

列表

默认

浏览次数

发布日期