What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models

📄 arXiv: 2605.13105v1 📥 PDF

作者: Yuanfang Peng, Jingjing Fu, Chuheng Zhang, Li Zhao, Jiang Bian, Mingyu Liu, Ling Zhang, Jun Zhang, Rui Wang

分类: cs.RO

发布日期: 2026-05-13


💡 一句话要点

PAIR-VLA:通过视觉鲁棒强化学习微调VLA模型,提升机器人操作泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉鲁棒性 强化学习 视觉-语言-动作模型 机器人操作 领域泛化

📋 核心要点

  1. 现有VLA模型在机器人操作中面临视觉变化的挑战,标准RL奖励难以区分任务相关和无关的视觉变化。
  2. PAIR-VLA通过引入动作不变性和敏感性目标,利用配对视觉变体,指导RL微调策略对视觉变化的响应。
  3. 实验表明,PAIR-VLA在多种视觉变化下显著提升了VLA模型的鲁棒性,并在不同视觉变化间展现出泛化能力。

📝 摘要(中文)

强化学习(RL)微调在机器人操作的视觉-语言-动作(VLA)模型中展现了潜力,但部署时的视觉变化带来了实际挑战。一个关键难点是,标准任务奖励监督任务成功,但对视觉变化是否与任务无关或改变操作所需行为的指导有限。我们提出了PAIR-VLA(用于视觉鲁棒VLA的配对动作不变性与敏感性),这是一个RL微调框架,通过在PPO优化期间添加两个辅助目标来解决此难题:一个不变性项,用于减少任务保持对(例如,不同的干扰物)的动作分布之间的差异;以及一个敏感性目标,用于鼓励任务改变对(例如,不同姿势的目标对象)的可分离动作分布。总之,这些目标将视觉变体从单纯的观察多样性转变为行为级别的策略响应指导,用于RL微调。我们在ManiSkill3上,针对两种代表性的VLA架构OpenVLA和$π_{0.5}$,在各种分布外视觉变化(包括未见过的干扰物、纹理变化、目标对象姿势变化、视点变化和光照变化)下进行了评估。我们的方法始终优于标准PPO,在$π_{0.5}$上平均提高了16.62%,在OpenVLA上平均提高了9.10%。值得注意的是,消融实验进一步表明了视觉变化之间的泛化:从干扰物和纹理变体中学习的不变性指导可以转移到目标姿势和光照变化,而添加目标姿势变体的敏感性指导可以进一步提高对干扰变化的鲁棒性,突出了行为级别RL指导的更广泛的可转移性。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在机器人操作任务中,虽然可以通过强化学习(RL)进行微调,但当部署环境出现视觉变化(如光照、纹理、干扰物等)时,性能会显著下降。这是因为标准的RL奖励函数只关注任务是否成功完成,而无法区分哪些视觉变化是与任务无关的,哪些是需要模型做出不同反应的。这种模糊性导致模型难以学习到对视觉变化具有鲁棒性的策略。

核心思路:PAIR-VLA的核心思想是将视觉变体从单纯的观察多样性转变为行为级别的指导信号。通过构建视觉变体的配对,并设计相应的辅助目标,来引导RL微调过程。具体来说,对于任务保持对(例如,同一场景下有不同的干扰物),模型应该学习到动作分布的不变性;而对于任务改变对(例如,目标物体处于不同的姿势),模型应该学习到动作分布的敏感性。

技术框架:PAIR-VLA框架在标准的PPO(Proximal Policy Optimization)算法基础上,增加了两个辅助目标:动作不变性损失和动作敏感性损失。整体流程如下:1) 收集经验数据:在不同的视觉变体下,使用当前策略与环境交互,收集状态、动作、奖励等数据。2) 构建视觉变体对:根据任务是否受到视觉变化的影响,将视觉变体配对成任务保持对和任务改变对。3) 计算损失函数:计算PPO损失、动作不变性损失和动作敏感性损失。4) 更新策略:使用总损失函数更新策略网络。

关键创新:PAIR-VLA的关键创新在于将视觉变体信息融入到RL微调过程中,通过动作不变性和敏感性这两个辅助目标,显式地指导模型学习对视觉变化的鲁棒性。与传统的RL微调方法相比,PAIR-VLA不仅关注任务的成功与否,还关注模型对不同视觉变化的响应,从而提高了模型的泛化能力。

关键设计:动作不变性损失采用KL散度来衡量两个视觉变体对应的动作分布之间的差异,目标是最小化这个差异。动作敏感性损失采用负的余弦相似度来衡量两个视觉变体对应的动作分布之间的相似程度,目标是最大化这个相似度(即最小化负相似度,使得动作分布尽可能分离)。具体公式为:L_invariance = KL(π(a|s), π(a|s')),L_sensitivity = -cos(π(a|s), π(a|s')),其中s和s'是配对的视觉状态,π(a|s)是策略网络输出的动作分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PAIR-VLA在ManiSkill3数据集上,针对OpenVLA和$π_{0.5}$两种VLA架构,在多种分布外视觉变化下,均取得了显著的性能提升。具体来说,PAIR-VLA在$π_{0.5}$上平均提高了16.62%,在OpenVLA上平均提高了9.10%。消融实验还表明,从干扰物和纹理变体中学习的不变性指导可以泛化到目标姿势和光照变化,进一步验证了PAIR-VLA的有效性和泛化能力。

🎯 应用场景

PAIR-VLA具有广泛的应用前景,可以应用于各种需要在复杂视觉环境下进行操作的机器人任务,例如:工业自动化中的零件抓取和装配、家庭服务机器人中的物品整理和清洁、医疗机器人中的手术辅助等。通过提高机器人对视觉变化的鲁棒性,可以显著降低机器人的部署成本和维护成本,并提高其工作效率和可靠性。

📄 摘要(原文)

Reinforcement learning (RL) fine-tuning has shown promise for Vision-Language-Action (VLA) models in robotic manipulation, but deployment-time visual shifts pose practical challenges. A key difficulty is that standard task rewards supervise task success, but offer limited guidance on whether a visual change is task-irrelevant or changes the behavior required for manipulation. We propose PAIR-VLA (Paired Action Invariance & Sensitivity for Visually Robust VLA), an RL fine-tuning framework to address this difficulty by adding two auxiliary objectives over paired visual variants during PPO optimization: an invariance term that reduces the discrepancy between action distributions for a task-preserving pair (e.g., different distractors), and a sensitivity objective that encourages separable action distributions for a task-altering pair (e.g., target object in a different pose). Together, these objectives turn visual variants from mere observation diversity into behavior-level guidance on policy responses during RL fine-tuning. We evaluate on ManiSkill3 across two representative VLA architectures, OpenVLA and $π_{0.5}$, under diverse out-of-distribution visual shifts including unseen distractors, texture changes, target object pose variation, viewpoint shifts, and lighting changes. Our method consistently improves over standard PPO, achieving average improvements of 16.62% on $π_{0.5}$ and 9.10% on OpenVLA. Notably, ablations further show generalization across visual shifts: invariance guidance learned from distractor and texture variants transfers to target-pose and lighting shifts, while adding sensitivity guidance on target-pose variants further improves robustness to nuisance shifts, highlighting the broader transferability of behavior-level RL guidance.