多模态模型

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器,通过结合局部与全局token,提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息,增强细节感知能力。在多个基准测试中表现优异,尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略,提高模型泛化能力,适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型,参数量为968M。它基于LLaVA架构优化,能够处理视觉与文本输入,显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能,广泛应用于内容审核、智能助手、视觉搜索等领域。

跃问创意板

跃问创意板是一款基于AI技术的用户友好型应用生成工具,支持通过自然语言指令快速创建小游戏、互动网页和可视化内容。具备零门槛操作、多轮交互、自动代码修复、版本管理和一键分享等功能,适用于游戏开发、教育、生活娱乐等多个场景,为用户提供高效便捷的创意实现方式。

PixVerse V2

PixVerse V2是一款基于Diffusion+Transformer(DiT)架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频,单个片段最长可达8秒,且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频,适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。