多模态模型

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器，支持视觉生成与理解任务。其采用多码本量化技术，将视觉特征分割并独立量化，显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率，图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块，广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

AI项目与工具 2025年06月11日 22 点赞 0 评论 405 浏览

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 413 浏览

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统，能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术，支持自动操作、自我规划与反思，适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制，提升了移动设备任务处理的效率与灵活性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 435 浏览

AudioX

AudioX 是一种基于多模态输入的音频生成模型，支持文本、视频、图像等多种输入方式，能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略，提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力，适用于视频配乐、动画音效、音乐创作等多个场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 439 浏览

GenMAC

GenMAC是一款基于多代理协作的迭代框架，旨在解决文本到视频生成中的复杂场景生成问题。它通过任务分解为设计、生成和重新设计三阶段，结合验证、建议、修正和输出结构化子任务，利用自适应自路由机制优化视频生成效果。该工具可应用于电影制作、游戏开发、广告设计、教育培训和新闻报道等多个领域，显著提升视频生成的效率和质量。

AI项目与工具 2025年06月12日 42 点赞 0 评论 440 浏览

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型，基于MoE架构，支持文本、图像、音频和视频等多种模态的输入输出，具备强大的理解和生成能力。模型在多个任务中表现优异，如图像识别、视频理解、语音问答等，适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性，为用户提供一体化智能体验。

AI项目与工具 2025年06月11日 79 点赞 0 评论 440 浏览

LaDeCo

LaDeCo是一款基于多模态模型的自动化图形设计工具，通过分层规划与逐步生成的方式，实现从多模态输入到高质量设计输出的转换。其核心功能涵盖层规划、层级设计生成、分辨率调整、元素填充及多样化设计输出，广泛适用于设计师、研究人员、评估人员及开发者等群体，助力提升设计效率与质量。

AI项目与工具 2025年06月12日 53 点赞 0 评论 443 浏览

BGE

BGE-VL是由北京智源研究院联合高校开发的多模态向量模型，基于大规模合成数据MegaPairs训练，具备高效的多模态数据合成方法和强大的泛化能力。它支持图文检索、组合图像检索和多模态嵌入等功能，适用于智能搜索、内容推荐、图像编辑辅助等多个领域。模型在多种任务中表现优异，尤其在组合图像检索方面取得显著成果。

AI项目与工具 2025年06月12日 14 点赞 0 评论 444 浏览

法唠AI

法唠AI是基于大语言模型开发的法律人工智能工具，专注于证券法与金融法律领域。提供法律问答、知识图谱构建、深度搜索、案件逻辑图绘制、股票信息查询、维权指导及文书生成等功能，支持个性化法律服务，助力用户高效获取法律解决方案。

AI项目与工具 2025年06月12日 87 点赞 0 评论 445 浏览

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型，采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理，强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本，适用于研究、开发及各类应用场景，展现卓越性能。

AI项目与工具 2025年06月12日 67 点赞 0 评论 450 浏览

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期