多模态 - 智狐AI导航

瑞智病理大模型

瑞智病理大模型（RuiPath）是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统，覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据，实现高效、精准的辅助诊断，支持交互式审核流程，提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台，适用于临床诊断、基层医疗、医学教育等多个场景，推动病理诊断智能化发展。

AI项目与工具 2025年06月12日 95 点赞 0 评论 624 浏览

WebLI

WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集，包含1000亿个图像与文本配对数据，是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建，保留了丰富的语言和文化多样性，支持多模态任务如图像分类、图像描述生成和视觉问答，广泛应用于人工智能研究、工程开发及教育领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 624 浏览

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集，支持文本、图像和点云等多种数据形式，旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务，该工具不仅能够评估模型性能，还能促进具身AI和3D场景理解领域的研究进展。同时，它为开发更强大的情境推理模型提供了丰富的预训练资源。

AI项目与工具 2025年06月12日 80 点赞 0 评论 622 浏览

Maya

Maya是一款开源多语言多模态模型，基于LLaVA框架开发，支持中文、法语、西班牙语等多种语言，专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据，实现跨模态对齐和指令微调，广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 622 浏览

CogSound

CogSound是一款基于AI的音效生成工具，能够为无声视频添加与内容匹配的高质量音效，涵盖多种复杂场景。该工具通过先进的音视频特征匹配技术和优化的生成算法，提升了视频的沉浸感和真实感，广泛应用于视频创作、广告制作及影视后期等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 621 浏览

Molmo 72B

Molmo 72B是一款由艾伦人工智能研究所推出的开源多模态AI模型，集成了图像和文本处理能力，适用于图像描述生成、视觉问答、文档解析及多模态交互等多种任务。凭借其强大的视觉编码能力和先进的模型架构，Molmo 72B在学术基准测试中表现优异，为开源AI技术的发展做出了重要贡献。

AI项目与工具 2025年06月12日 69 点赞 0 评论 621 浏览

天工超级智能体

运用AI agent架构和深度研究技术，能一站式生成文档、PPT、表格、网页、播客和音视频等多种类型的内容，标志着“AI Office智能体”时代已经来临。

Ai办公效率 2025年06月05日 76 点赞 0 评论 621 浏览

olmOCR

olmOCR 是一款开源 PDF 文档处理工具，结合文档锚定技术和 Qwen2-VL-7B-Instruct 模型，可高效提取结构化文本并保留原始布局。支持多种文档类型，具备大规模批量处理能力和低成本优势，适用于学术研究、法律文件处理、企业文档管理及数字图书馆建设等多个场景。其开源特性与可扩展性也增强了用户的使用灵活性。

AI项目与工具 2025年06月12日 47 点赞 0 评论 620 浏览

Dust

Dust 是一款面向企业用户的 AI 代理构建平台，支持无代码开发，可快速部署定制化 AI 代理，实现业务流程自动化。其核心功能包括多平台集成、实时数据同步、语义搜索、多模态交互及团队协作等，适用于市场营销、销售、技术支持等多个应用场景，有效提升工作效率和数据利用率。

AI项目与工具 2025年06月11日 98 点赞 0 评论 620 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 620 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期