OpenVision
OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。
MemenomeLM
MemenomeLM是Brainrot AI推出的AI工具,专为Z世代研究人员设计,可将PDF文档、笔记等资料转化为有趣且互动性强的视频内容。具备多模态理解能力,能用简单语言解释复杂概念并提供现实例子,支持生成多种格式的短视频,如Brainrot Quiz、Yap Dollar等,还可添加搞笑音效、生成图片及选择不同语音。