VideoAgent是由斯坦福大学、滑铁卢大学及DeepMind等机构联合研发的一种基于自改进机制的视频生成系统。该系统能够根据图像观察和语言指令生成用于控制机器人操作的视频计划,并通过自我条件一致性方法对视频计划进行迭代优化。VideoAgent利用预训练的视觉-语言模型(VLM)提供反馈,逐步提升生成视频的质量,同时在实际执行中收集环境数据,减少幻觉现象,提高任务完成率。其在模拟环境中的表现突出,可显著改善真实机器人的视频生成效果,为视频生成技术向实际应用场景拓展提供了新思路。
VideoAgent是由斯坦福大学、滑铁卢大学及DeepMind等机构联合研发的一种基于自改进机制的视频生成系统。该系统能够根据图像观察和语言指令生成用于控制机器人操作的视频计划,并通过自我条件一致性方法对视频计划进行迭代优化。VideoAgent利用预训练的视觉-语言模型(VLM)提供反馈,逐步提升生成视频的质量,同时在实际执行中收集环境数据,减少幻觉现象,提高任务完成率。其在模拟环境中的表现突出,可显著改善真实机器人的视频生成效果,为视频生成技术向实际应用场景拓展提供了新思路。
发表评论 取消回复