VLA Model Post-Training via Action-Chunked PPO and Self Behavior Cloning
作者: Si-Cheng Wang, Tian-Yu Xiang, Xiao-Hu Zhou, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Ao-Qun Jin, Zeng-Guang Hou
分类: cs.RO
发布日期: 2025-09-30
💡 一句话要点
提出基于动作块PPO和自行为克隆的VLA模型后训练方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 强化学习 近端策略优化 行为克隆 动作块
📋 核心要点
- VLA模型后训练面临稀疏奖励和训练不稳定的挑战,限制了其在实际场景中的应用。
- 提出基于动作块的PPO算法,并结合自行为克隆,提高策略的时间一致性和训练稳定性。
- 在MetaWorld基准测试中,该方法优于监督微调,实现了更高的成功率和更少的成功步数。
📝 摘要(中文)
强化学习是视觉-语言-动作(VLA)模型后训练的一个有前景的途径,但实际部署受到稀疏奖励和不稳定训练的阻碍。本研究通过引入基于近端策略优化(PPO)的动作块,并结合使用自收集演示的行为克隆来缓解这些挑战。将连续动作聚合为块,提高了策略的时间一致性和信息反馈的密度。此外,应用辅助行为克隆损失,并使用动态更新的演示缓冲区,该缓冲区在训练期间不断收集高质量的任务试验。在线调整动作块PPO目标和自行为克隆辅助损失之间的相对权重,以稳定后训练过程。在MetaWorld基准上的实验表明,相对于监督微调,性能有所提高,实现了较高的成功率(0.93)和较少的成功步数(42.17)。这些结果证明了强化学习用于VLA后训练的可行性,并有助于为下游VLA应用奠定基础。
🔬 方法详解
问题定义:论文旨在解决视觉-语言-动作(VLA)模型在后训练阶段,由于强化学习固有的稀疏奖励和训练不稳定问题,导致模型难以有效学习的问题。现有方法,如直接使用强化学习进行微调,往往收敛速度慢,效果不佳。
核心思路:论文的核心思路是通过引入动作块(Action Chunk)的概念,将连续的动作组合成一个块,从而提高策略的时间一致性,并增加每个时间步的有效反馈。同时,利用自行为克隆(Self Behavior Cloning)来稳定训练过程,并加速学习。
技术框架:整体框架包含以下几个主要模块:1) 动作块生成模块:将连续的动作序列组合成动作块。2) PPO训练模块:使用动作块化的PPO算法进行策略优化。3) 自行为克隆模块:利用在线收集的高质量任务试验进行行为克隆,辅助策略学习。4) 动态权重调整模块:根据训练状态动态调整PPO损失和行为克隆损失之间的权重。
关键创新:论文的关键创新在于:1) 动作块的引入,提高了策略的时间一致性,并增加了有效反馈。2) 自行为克隆,利用在线收集的高质量数据,稳定了训练过程,并加速了学习。3) 动态权重调整,根据训练状态自适应地平衡PPO损失和行为克隆损失,进一步提高了训练的稳定性。
关键设计:动作块的大小是一个关键参数,需要根据具体任务进行调整。行为克隆损失采用交叉熵损失函数。动态权重调整采用了一种基于训练过程中的奖励变化率的自适应方法。PPO算法采用标准的实现,包括裁剪的策略更新和广义优势估计(GAE)。
🖼️ 关键图片
📊 实验亮点
在MetaWorld基准测试中,该方法取得了显著的性能提升。相较于监督微调,成功率从未知提升到0.93,达到较高的水平。同时,成功所需的步数也显著减少,从未知降低到42.17步,表明该方法能够更有效地学习到最优策略。
🎯 应用场景
该研究成果可应用于机器人控制、自动化任务执行等领域。通过强化学习对VLA模型进行后训练,可以使机器人更好地理解人类指令,并执行复杂的任务。例如,可以应用于家庭服务机器人、工业自动化机器人等,提高其智能化水平和适应性。
📄 摘要(原文)
Reinforcement learning (RL) is a promising avenue for post-training vision-language-action (VLA) models, but practical deployment is hindered by sparse rewards and unstable training. This work mitigates these challenges by introducing an action chunk based on proximal policy optimization (PPO) with behavior cloning using self-collected demonstrations. Aggregating consecutive actions into chunks improves the temporal consistency of the policy and the density of informative feedback. In addition, an auxiliary behavior cloning loss is applied with a dynamically updated demonstration buffer that continually collects high-quality task trials during training. The relative weight between the action-chunked PPO objective and the self behavior clone auxiliary loss is adapted online to stabilize the post-training process. Experiments on the MetaWorld benchmark indicate improved performance over supervised fine-tuning, achieving a high success rate (0.93) and few steps to success (42.17). These results demonstrate the viability of RL for VLA post-training and help lay the groundwork for downstream VLA applications.