文档

StarizonAI

浏览器侧边栏AI助手,StarizonAI可以在网页侧边栏实现 AI 同屏同步聊天、网页/视频总结、文档聊天总结、单页面/多页面阅读辅助等功能

Marker

Marker 是一款开源的高精度文档转换工具,支持 PDF、Word 等多种格式向 Markdown、JSON 和 HTML 的转换。它利用深度学习技术自动去除干扰元素,支持多语言处理,具备表格、代码块、公式识别及图像提取等功能,适用于学术研究、技术文档、教育资料等多种场景。同时支持硬件加速和批量处理,提升转换效率与用户体验。

parsio

Parsio是一款利用AI技术的文档解析工具,支持从PDF、电子邮件及发票等多种文档中自动提取结构化数据。它提供PDF解析与OCR功能,支持多语言识别和表格提取,适用于业务流程优化、客户关系管理及财务管理等多个领域,帮助企业提高效率并减少错误。

Le Chat APP

Le Chat APP是一款由Mistral AI推出的AI对话工具,支持自然语言交互、实时搜索、文档分析与图像生成。提供免费基础版和付费Pro版,支持多语言及移动端使用,适用于学习、旅行规划、创意激发等多种场景。

Jina

Jina-embeddings-v3 是一款基于 Transformer 架构的文本嵌入模型,支持多语言处理和长文本分析。通过 LoRA 适配器和 Matryoshka 表示学习技术,模型能够生成高质量的嵌入向量,适用于多种任务,包括查询-文档检索、聚类、分类和文本匹配。其高性能和成本效益使其适用于生产环境及边缘计算场景。

Omniflow

Omniflow 是一款基于AI的产品开发工具,旨在提升创意转化效率。其核心功能涵盖创意梳理、文档生成、任务分解与项目监控,支持自动化流程与多平台集成,适用于多种行业场景,助力团队高效协作与高质量交付。

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型,支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项,适用于不同场景。其基于开源框架开发,易于扩展,可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

Vision Parse

Vision Parse 是一款开源工具,旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力,包括文本和表格,并能保持原有格式与结构。此外,Vision Parse 支持多种视觉语言模型,确保解析的高精度与高速度。其应用场景广泛,涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

LongDocURL

LongDocURL是一个由中国科学院自动化研究所和阿里巴巴联合发布的多模态长文档理解基准数据集,包含2,325组问答对,覆盖33,000页文档,涉及20个子任务。该数据集专注于评估AI模型在长文档理解、数值推理、跨元素定位及多样化任务中的性能,支持文本、图像和表格等多种模式,具有高质量和多样性的特点。

超级助理

超级助理是百度智能云发布的AI浏览器插件,可以随时感知用户的需求,在解析复杂问题、辅助文案创作、智能文档处理、对话式搜索和全文翻译等场景中提供帮助。