多模态 - 智狐AI导航

LEOPARD

LEOPARD是一款由腾讯AI Lab开发的视觉语言模型，专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集，实现对复杂视觉语言任务的高效处理，包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

AI项目与工具 2025年06月12日 35 点赞 0 评论 745 浏览

Migician

Migician是一款由多所高校联合开发的多模态大语言模型，专为多图像定位任务设计。它基于大规模数据集MGrounding-630k，采用端到端架构和两阶段训练方法，支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域，具有高效的推理能力和灵活的输入方式。

AI项目与工具 2025年06月12日 90 点赞 0 评论 747 浏览

Webdraw

Webdraw 是一款无代码 AI 应用开发平台，支持图像生成、视频制作、聊天助手等功能，用户可通过自然语言或可视化工具快速构建应用。平台集成多种 AI 模型，支持多模态内容创作，具备文件共享、实时协作和一键部署能力，适用于创意设计、个性化工具开发、教育及企业场景，降低 AI 技术使用门槛。

AI项目与工具 2025年06月12日 99 点赞 0 评论 747 浏览

觅果Migo

一款AI学习办公助手。为用户提供便捷、高效的文字处理、信息搜索、知识问答等支持，还能辅助论文阅读、润色学术写作，支持多模态交互。

AI写作对话 2025年06月05日 85 点赞 0 评论 748 浏览

MinerU

MinerU是一款开源智能数据提取工具，专注于复杂PDF文档的高效解析与提取。它能够将包含多种内容类型的PDF文档转换为结构化的Markdown格式，支持图像、公式、表格和文本等多种内容处理，保留原始文档结构和格式，支持公式识别与转换成LaTeX格式，自动删除页眉、页脚、脚注和页码等非内容元素，适用于学术、财务、法律等多个领域。

AI项目与工具 2025年06月12日 92 点赞 0 评论 749 浏览

Pixtral Large

Pixtral Large是一款由Mistral AI开源的超大规模多模态模型，具备1240亿参数，支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口，能在多语言环境中处理复杂文档和多图像场景，广泛应用于教育、医疗、客服和内容审核等领域。

AI项目与工具 2025年06月12日 39 点赞 0 评论 749 浏览

Kanana

Kanana是一款由Kakao推出的生成式AI助手，具备强大的上下文理解和记忆能力。其核心功能包括群聊助手（Kana）和私人伴侣（Nana），前者专注于处理团队协作中的具体任务，后者则用于管理个人及集体事务。此外，该工具还支持多模态输入输出方式，可应用于商务、教育、社交等多个领域，并计划扩展至车载场景以提升用户体验。

AI项目与工具 2025年05月07日 20 点赞 0 评论 751 浏览

Agent K v1.0

Agent K v1.0 是一款端到端自主数据科学智能体，由华为诺亚方舟实验室与伦敦大学学院团队联合开发。该工具能够自动化处理数据科学生命周期中的各个环节，支持多模态数据处理，具备动态多步骤问题解决能力，并通过结构化推理和动态记忆管理实现自我学习与优化。Agent K v1.0 在Kaggle多模态挑战赛中表现优异，广泛应用于金融、医疗、零售、制造及客户服务等领域。

AI项目与工具 2025年06月12日 68 点赞 0 评论 751 浏览

Add To Cart AI

Add To Cart AI 是一款基于AI技术的电商购物助手，支持多模态交互，能快速将购物清单、图片或聊天内容转化为购物车内容。结合生成式AI和语义搜索技术，提供个性化推荐与智能问答服务，提升购物效率与用户体验。适用于电商平台、品牌官网及社交媒体，支持品牌定制与数据安全保护。

AI项目与工具 2025年06月11日 74 点赞 0 评论 751 浏览

Mochii AI

Mochii AI 是一款多功能AI助手，支持智能对话、文档分析、网页总结、图像识别等功能，兼容多种AI模型。用户可跨平台使用，适用于文档处理、内容创作、代码生成及数据分析等场景，具备个性化定制和上下文理解能力，提升工作效率与体验。

AI项目与工具 2025年06月12日 80 点赞 0 评论 751 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期