多模态

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具,支持从教育材料中提取文本、公式、表格等结构化数据,输出为JSON或Markdown格式,准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术,支持多语言处理,适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

MedRAX

MedRAX是一款面向胸部X光检查的医学推理AI系统,结合多模态大模型与专业工具,实现复杂医疗问题的动态处理。支持多步骤推理、精准诊断与多种影像分析功能,适用于临床支持、教育培训及远程医疗等场景。系统具备良好的扩展性与部署灵活性,已在多项基准测试中表现优异。

Magma

Magma是微软研究院开发的多模态AI基础模型,具备理解与执行多模态任务的能力,覆盖数字与物理环境。它融合语言、空间与时间智能,支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练,Magma在零样本和微调设置下表现优异,适用于网页操作、机器人控制、视频理解及智能助手等多个领域。

Awesome Chinese LLM

整理了开源的中文大语言模型(LLM),主要关注规模较小、可私有化部署且训练成本较低的模型,目前已收录了100多个相关资源。

Amazon Nova Premier

Amazon Nova Premier 是亚马逊推出的多模态 AI 模型,支持文本、图像和视频输入,具备超长上下文处理能力(最高达 100 万 token),适用于复杂任务处理、多步骤规划与跨数据源执行。可通过模型蒸馏生成轻量级版本,优化生产部署。支持多语言,具备安全控制机制,广泛应用于金融、法律、软件开发等领域。

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型,通过文本与图像间的双向循环一致性学习,实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应,支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性,适用于广告、教育等多个应用场景。

GOT-OCR2.0

创新的OCR模型,它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景,GOT-OCR 2.0都能提供强大的支持。

InfiMM

InfiMM-WebMath-40B是由字节跳动与中国科学院联合推出的大规模多模态数据集,涵盖大量数学和科学内容,包括文本、公式、符号及图像。该数据集通过筛选、清洗和标注优化,可显著提升多模态模型的数学推理能力。它适用于数学题库生成、学习工具开发、论文理解及科学研究等多个应用场景。 ---

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型,具备结构化推理和透明性,支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试,涵盖4000多个推理步骤,用于全面评估推理能力。其性能优于多个开源模型,适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景,具有高准确性和可解释性。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。