多模态 - 智狐AI导航

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型，通过文本与图像间的双向循环一致性学习，实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应，支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性，适用于广告、教育等多个应用场景。

AI项目与工具 2025年06月12日 19 点赞 0 评论 398 浏览

InfiMM

InfiMM-WebMath-40B是由字节跳动与中国科学院联合推出的大规模多模态数据集，涵盖大量数学和科学内容，包括文本、公式、符号及图像。该数据集通过筛选、清洗和标注优化，可显著提升多模态模型的数学推理能力。它适用于数学题库生成、学习工具开发、论文理解及科学研究等多个应用场景。 ---

AI项目与工具 2025年06月12日 100 点赞 0 评论 398 浏览

Transfusion是由Meta公司开发的多模态AI模型，能够同时生成文本和图像，并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型，在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据，表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成

AI项目与工具 2025年06月12日 26 点赞 0 评论 398 浏览

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具，支持从教育材料中提取文本、公式、表格等结构化数据，输出为JSON或Markdown格式，准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术，支持多语言处理，适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

AI项目与工具 2025年06月11日 77 点赞 0 评论 397 浏览

Magma

Magma是微软研究院开发的多模态AI基础模型，具备理解与执行多模态任务的能力，覆盖数字与物理环境。它融合语言、空间与时间智能，支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练，Magma在零样本和微调设置下表现优异，适用于网页操作、机器人控制、视频理解及智能助手等多个领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 397 浏览

GOT-OCR2.0

创新的OCR模型，它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景，GOT-OCR 2.0都能提供强大的支持。

Ai平台模型 1970年01月01日 0 点赞 0 评论 397 浏览

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型，具备结构化推理和透明性，支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试，涵盖4000多个推理步骤，用于全面评估推理能力。其性能优于多个开源模型，适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景，具有高准确性和可解释性。

AI项目与工具 2025年06月12日 74 点赞 0 评论 397 浏览

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型，专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性，采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能，并且其源代码和资源已公开，可供研究和应用。

AI项目与工具 2025年06月12日 73 点赞 0 评论 397 浏览

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型，能够处理文本、语音和动作数据，生成对应的输出模态。该模型在共同语音手势生成任务上表现出色，且支持情感预测等创新任务。它采用编码器-解码器架构，并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域，推动了虚拟角色自

AI项目与工具 2025年06月12日 100 点赞 0 评论 397 浏览

MedRAX

MedRAX是一款面向胸部X光检查的医学推理AI系统，结合多模态大模型与专业工具，实现复杂医疗问题的动态处理。支持多步骤推理、精准诊断与多种影像分析功能，适用于临床支持、教育培训及远程医疗等场景。系统具备良好的扩展性与部署灵活性，已在多项基准测试中表现优异。

AI项目与工具 2025年06月12日 68 点赞 0 评论 396 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期