Eagle 2.5 是英伟达推出的一款专注于长上下文多模态学习的视觉语言模型,其参数规模为 8B。尽管参数量较小,但在处理高分辨率图像和长视频序列方面表现优异,性能可与更大规模的模型如 Qwen 2.5-VL-72B 和 InternVL2.5-78B 相媲美。该模型采用创新的训练策略:信息优先采样和渐进式后训练。信息优先采样通过图像区域保留(IAP)和自动降级采样(ADS)技术,确保图像的完整性与细节优化;渐进式后训练则通过逐步扩展上下文窗口,使模型在不同输入长度下保持稳定性能。 Eagle 2.5 支持多种任务,包括长视频和高分辨率图像的理解,以及视频和图像相关的多项基准测试。其技术架构结合了 SigLIP 视觉编码与 MLP 投影层,提升了模型的灵活性与泛化能力。此外,Eagle 2.5 还基于定制数据集 Eagle-Video-110K 进行训练,该数据集采用双重标注方式,注重多样性与叙事连贯性。Eagle 2.5 可广泛应用于智能视频分析、高分辨率图像处理、内容创作、教育及自动驾驶等领域。
发表评论 取消回复