多模态 - 智狐AI导航

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型，支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构，采用序列到序列学习方法，利用自注意力机制实现多模态信息融合。通过训练大规模数据集，Florence-2在多个应用场景中表现出色，包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

AI项目与工具 2025年06月12日 67 点赞 0 评论 509 浏览

Aya Vision

Aya Vision 是 Cohere 推出的多模态、多语言视觉模型，支持 23 种语言，具备图像描述生成、视觉问答、文本翻译和多语言摘要生成等能力。采用模块化架构与合成标注技术，确保在资源有限条件下仍具高效表现。适用于教育、内容创作、辅助工具开发及多语言交流等多个场景，具有广泛的实用价值。

AI项目与工具 2025年06月12日 70 点赞 0 评论 510 浏览

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统，能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术，支持自动操作、自我规划与反思，适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制，提升了移动设备任务处理的效率与灵活性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 512 浏览

PP

PP-DocBee是百度飞桨推出的多模态文档理解模型，基于ViT+MLP+LLM架构，支持文字、表格、图表等多类型文档内容的精准识别与解析。具备高效的推理性能和高质量输出，适用于文档问答、信息提取等场景，支持灵活部署，为文档处理提供智能化解决方案。

AI项目与工具 2025年06月12日 56 点赞 0 评论 513 浏览

GenMAC

GenMAC是一款基于多代理协作的迭代框架，旨在解决文本到视频生成中的复杂场景生成问题。它通过任务分解为设计、生成和重新设计三阶段，结合验证、建议、修正和输出结构化子任务，利用自适应自路由机制优化视频生成效果。该工具可应用于电影制作、游戏开发、广告设计、教育培训和新闻报道等多个领域，显著提升视频生成的效率和质量。

AI项目与工具 2025年06月12日 42 点赞 0 评论 513 浏览

AudioX

AudioX 是一种基于多模态输入的音频生成模型，支持文本、视频、图像等多种输入方式，能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略，提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力，适用于视频配乐、动画音效、音乐创作等多个场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 516 浏览

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 516 浏览

ModelEngine

ModelEngine 是华为开源的全流程 AI 开发工具链，涵盖数据处理、模型训练与应用开发三大核心模块。支持多模态数据清洗、知识向量化及模型推理，提供低代码编排和 RAG 框架，适用于医疗、金融、制造等领域的 AI 应用开发与行业化落地。

AI项目与工具 2025年06月12日 75 点赞 0 评论 517 浏览

BuboGPT | 字节大模型

BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。

Ai平台模型 2025年06月05日 99 点赞 0 评论 517 浏览

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型，基于MoE架构，支持文本、图像、音频和视频等多种模态的输入输出，具备强大的理解和生成能力。模型在多个任务中表现优异，如图像识别、视频理解、语音问答等，适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性，为用户提供一体化智能体验。

AI项目与工具 2025年06月11日 79 点赞 0 评论 517 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期