Policy Contrastive Decoding for Robotic Foundation Models
作者: Shihan Wu, Xu Luo, Ji Zhang, Junlin Xie, Jingkuan Song, Heng Tao Shen, Lianli Gao
分类: cs.RO
发布日期: 2025-05-19 (更新: 2025-10-18)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出策略对比解码(PCD)方法,提升机器人通用策略在真实环境中的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人策略 泛化能力 对比学习 策略解码 机器人基础模型
📋 核心要点
- 现有机器人策略易受预训练数据中虚假相关性的影响,导致泛化能力不足,尤其是在真实环境中。
- 论文提出策略对比解码(PCD)方法,通过对比不同视觉输入下的动作概率分布,引导策略关注对象相关线索。
- PCD作为插件,无需训练即可显著提升现有机器人策略的性能,在真实环境中对标杆策略提升高达108%。
📝 摘要(中文)
机器人通用策略,又称机器人基础模型,具有实现灵活、通用和灵巧机器人系统的巨大潜力。然而,经验实验表明,现有的机器人策略容易从预训练轨迹中学习到虚假相关性,从而不利于其在训练数据之外的泛化能力。为了解决这个问题,我们提出了一种新颖的策略对比解码(PCD)方法,该方法通过对比从原始和对象掩码视觉输入导出的动作概率分布,将机器人策略的注意力重定向到与对象相关的视觉线索。作为一种免训练方法,我们的PCD可以作为一个插件来改进不同类型的机器人策略,而无需微调或访问模型权重。我们在三种开源机器人策略(包括自回归策略OpenVLA和基于扩散的策略Octo和$π_0$)之上进行了广泛的实验。在模拟和真实环境中所获得的结果证明了PCD的灵活性和有效性,例如,PCD将最先进的策略$π_0$在模拟环境中提高了8.9%,在真实环境中提高了108%。代码和演示可在https://Koorye.github.io/proj/PCD公开获取。
🔬 方法详解
问题定义:现有机器人策略在预训练过程中容易学习到与任务无关的虚假相关性,例如背景噪声,导致在新的、未见过的环境中泛化能力显著下降。尤其是在真实机器人应用中,这种问题更为突出,严重限制了机器人通用策略的实际应用。
核心思路:论文的核心思路是通过对比不同视觉输入(原始图像和对象掩码图像)下的策略行为,迫使策略关注真正与目标对象相关的视觉特征。通过这种对比学习的方式,削弱策略对虚假相关性的依赖,从而提升其泛化能力。
技术框架:PCD是一种后处理方法,可以作为插件应用于现有的机器人策略。其主要流程如下:1) 输入原始图像,得到策略输出的动作概率分布;2) 对原始图像进行对象掩码,即移除图像中的目标对象,得到新的视觉输入;3) 将掩码后的图像输入策略,得到新的动作概率分布;4) 对比两个动作概率分布,通过特定的对比损失函数,调整原始动作概率分布,使其更加关注与对象相关的特征。
关键创新:PCD的关键创新在于其对比学习的方式,它不是直接修改策略的训练过程或模型结构,而是通过后处理的方式,在推理阶段引导策略的行为。这种方法具有很强的通用性和灵活性,可以应用于各种不同的机器人策略,而无需重新训练或微调模型。
关键设计:PCD的关键设计在于对比损失函数的选择。论文中可能使用了KL散度或其他合适的距离度量来衡量两个动作概率分布之间的差异。此外,对象掩码的生成方式也可能影响PCD的效果,例如可以使用预训练的对象检测模型来生成掩码。具体的参数设置和损失函数形式需要在论文中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PCD能够显著提升现有机器人策略的性能。例如,在模拟环境中,PCD将最先进的策略$π_0$的性能提高了8.9%,而在更具挑战性的真实环境中,性能提升高达108%。这些结果充分证明了PCD的有效性和实用性。
🎯 应用场景
该研究成果可广泛应用于各种机器人操作任务,例如物体抓取、装配、导航等。通过提升机器人策略的泛化能力,可以降低机器人部署的成本和难度,使其能够更好地适应不同的环境和任务需求。未来,该方法有望推动机器人通用策略的发展,实现更加智能和灵活的机器人系统。
📄 摘要(原文)
Robotic foundation models, or generalist robot policies, hold immense potential to enable flexible, general-purpose and dexterous robotic systems. Despite their advancements, our empirical experiments reveal that existing robot policies are prone to learning spurious correlations from pre-training trajectories, adversely affecting their generalization capabilities beyond the training data. To tackle this, we propose a novel Policy Contrastive Decoding (PCD) approach, which redirects the robot policy's focus toward object-relevant visual clues by contrasting action probability distributions derived from original and object-masked visual inputs. As a training-free method, our PCD can be used as a plugin to improve different types of robot policies without needing to finetune or access model weights. We conduct extensive experiments on top of three open-source robot policies, including the autoregressive policy OpenVLA and the diffusion-based policies Octo and $π_0$. The obtained results in both simulation and real-world environments prove PCD's flexibility and effectiveness, e.g., PCD enhances the state-of-the-art policy $π_0$ by 8.9% in the simulation environment and by 108% in the real-world environment. Code and demos are publicly available at: https://Koorye.github.io/proj/PCD.