FrameSkip: Learning from Fewer but More Informative Frames in VLA Training
作者: Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Changti Wu, Hang Yuan, Haishan Liu, Bailing Wang, Cong Huang, Kai Chen
分类: cs.RO
发布日期: 2026-05-13
备注: GitHub: https://github.com/ZGC-EmbodyAI/FrameSkip
💡 一句话要点
FrameSkip:通过视觉-语言-动作训练中更少但信息量更大的帧进行学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作 机器人学习 帧选择 数据采样 强化学习 机器人操作 VLA训练
📋 核心要点
- 现有VLA训练方法对所有帧同等对待,忽略了关键操作帧的稀疏性,导致训练效率低下。
- FrameSkip通过评估帧的重要性,选择性地保留信息量大的帧,从而优化训练数据分布。
- 实验表明,FrameSkip在多个机器人任务中,仅使用20%的帧就能显著提升VLA策略的成功率。
📝 摘要(中文)
视觉-语言-动作(VLA)策略通常通过密集的机器人演示轨迹进行训练,这些轨迹通常通过遥操作收集,并将每个记录的帧采样为提供同等有用的监督。我们认为,这种惯例造成了时间监督不平衡:长时间的低变化片段主导了训练流,而诸如对齐、接触、抓取和释放等操作关键的转换仅零星出现。我们引入了FrameSkip,这是一个数据层帧选择框架,它使用动作变化、视觉-动作一致性、任务进度先验和夹爪转换保留来对轨迹帧进行评分,然后在目标保留率下将训练样本重新映射到高重要性帧。由于FrameSkip仅在数据加载器中运行,因此它不会更改VLA架构、动作头、训练目标和推理过程。在RoboCasa-GR1、SimplerEnv和LIBERO上,FrameSkip改进了优于全帧训练和更简单的帧选择变体的成功-保留权衡,在主要设置中使用压缩轨迹视图(保留20%的唯一帧)的情况下,在三个基准测试中实现了76.15%的宏平均成功率,而全帧训练的成功率为66.50%。
🔬 方法详解
问题定义:现有的视觉-语言-动作(VLA)策略训练方法通常采用密集采样策略,即从机器人演示轨迹中均匀采样每一帧作为训练样本。这种方法忽略了轨迹中不同帧的重要性差异,导致训练数据中包含大量冗余的、信息量低的帧(例如,机器人静止或缓慢移动的帧),而关键的操作转换帧(例如,抓取、放置等)则相对稀疏。这种时间监督不平衡降低了训练效率,并可能影响最终策略的性能。
核心思路:FrameSkip的核心思路是根据帧的重要性对训练数据进行选择性采样,从而优化训练数据分布。它旨在保留那些包含更多动作变化、视觉-动作一致性、任务进度信息以及夹爪状态转换的关键帧,同时减少冗余帧的比例。通过这种方式,FrameSkip能够使VLA策略更有效地学习到关键的操作技能。
技术框架:FrameSkip是一个数据层的帧选择框架,它位于数据加载器中,不改变VLA模型的架构、动作头、训练目标和推理过程。其主要流程包括:1) 对轨迹中的每一帧进行评分,评分依据包括动作变化、视觉-动作一致性、任务进度先验和夹爪转换保留;2) 根据评分结果,按照预设的目标保留率,选择性地保留高分帧,并丢弃低分帧;3) 将选择后的帧作为训练数据输入到VLA模型中进行训练。
关键创新:FrameSkip的关键创新在于其帧选择策略,该策略综合考虑了多个因素来评估帧的重要性。与简单的帧选择方法(例如,均匀采样或基于动作幅度采样)相比,FrameSkip能够更准确地识别和保留关键的操作转换帧,从而提高训练效率和策略性能。此外,FrameSkip作为一个数据层的框架,具有良好的通用性和可扩展性,可以方便地应用于不同的VLA模型和任务。
关键设计:FrameSkip的关键设计包括:1) 动作变化评分:衡量相邻帧之间动作的变化程度,变化越大,得分越高;2) 视觉-动作一致性评分:衡量视觉信息和动作信息之间的一致性,一致性越高,得分越高;3) 任务进度先验评分:利用任务相关的先验知识,例如,目标物体的位置,来评估帧的任务进度,进度越快,得分越高;4) 夹爪转换保留:优先保留夹爪状态发生变化的帧,例如,夹爪打开或关闭的帧;5) 目标保留率:控制最终保留的帧的数量,该参数需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
FrameSkip在RoboCasa-GR1、SimplerEnv和LIBERO三个机器人操作基准测试中取得了显著的性能提升。在主要设置中,FrameSkip仅使用20%的原始帧,就实现了76.15%的宏平均成功率,相比于全帧训练的66.50%有显著提升。实验结果表明,FrameSkip能够有效地提高VLA策略的训练效率和性能,并优于其他帧选择方法。
🎯 应用场景
FrameSkip可应用于各种机器人操作任务,尤其是在数据收集成本高昂或轨迹数据冗余度较高的场景下。例如,它可以用于提升复杂装配任务、家庭服务机器人任务以及医疗机器人任务的训练效率和性能。通过减少训练数据量,FrameSkip还有助于降低计算资源需求,加速模型开发周期,并促进VLA策略在资源受限平台上的部署。
📄 摘要(原文)
Vision-Language-Action (VLA) policies are commonly trained from dense robot demonstration trajectories, often collected through teleoperation, by sampling every recorded frame as if it provided equally useful supervision. We argue that this convention creates a temporal supervision imbalance: long low-change segments dominate the training stream, while manipulation-critical transitions such as alignment, contact, grasping, and release appear only sparsely. We introduce FrameSkip, a data-layer frame selection framework that scores trajectory frames using action variation, visual-action coherence, task-progress priors, and gripper-transition preservation, then remaps training samples toward high-importance frames under a target retention ratio. Because FrameSkip operates only in the dataloader, it leaves the VLA architecture, action head, training objective, and inference procedure unchanged. Across RoboCasa-GR1, SimplerEnv, and LIBERO, FrameSkip improves the success-retention trade-off over full-frame training and simpler frame selection variants, achieving a macro-average success rate of 76.15% across the three benchmarks compared with 66.50% for full-frame training while using a compressed trajectory view that retains 20% of unique frames in the main setting.