多模态模型

AudioX

AudioX 是一种基于多模态输入的音频生成模型，支持文本、视频、图像等多种输入方式，能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略，提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力，适用于视频配乐、动画音效、音乐创作等多个场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 438 浏览

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统，能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术，支持自动操作、自我规划与反思，适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制，提升了移动设备任务处理的效率与灵活性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 435 浏览

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 413 浏览

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器，支持视觉生成与理解任务。其采用多码本量化技术，将视觉特征分割并独立量化，显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率，图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块，广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

AI项目与工具 2025年06月11日 22 点赞 0 评论 405 浏览

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期

AudioX

Mobile

BAGEL

UniTok

多模态模型 首页 多模态模型

列表 默认 浏览次数 发布日期

AudioX

Mobile

BAGEL

UniTok

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期