Policy Contrastive Decoding for Robotic Foundation Models

作者: Shihan Wu, Xu Luo, Ji Zhang, Junlin Xie, Jingkuan Song, Heng Tao Shen, Lianli Gao

分类: cs.RO

发布日期: 2025-05-19 (更新: 2025-10-18)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出政策对比解码以解决机器人政策泛化能力不足问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人政策 对比学习 视觉线索 泛化能力 无训练方法 政策改进 开源实验

📋 核心要点

现有机器人政策容易学习到虚假关联，导致其在真实环境中的泛化能力不足。
提出的政策对比解码（PCD）方法通过对比不同视觉输入的动作概率分布，引导政策关注重要的视觉线索。
实验结果显示，PCD在仿真和现实环境中均显著提升了机器人政策的性能，尤其在现实环境中提升幅度达到108%。

📝 摘要（中文）

机器人基础模型或通用机器人政策具有极大的潜力，可以实现灵活、通用和灵巧的机器人系统。然而，实证实验表明，现有机器人政策容易从预训练轨迹中学习到虚假关联，影响其在训练数据之外的泛化能力。为此，本文提出了一种新颖的政策对比解码（PCD）方法，通过对比来自原始和对象遮蔽视觉输入的动作概率分布，引导机器人政策关注与对象相关的视觉线索。作为一种无训练的方法，PCD可以作为插件用于改进不同类型的机器人政策，而无需微调或访问模型权重。我们在三种开源机器人政策上进行了广泛实验，结果证明了PCD的灵活性和有效性，例如在仿真环境中提升了最先进政策$π_0$的性能8.9%，在现实环境中提升了108%。

🔬 方法详解

问题定义：本文旨在解决现有机器人政策在泛化能力方面的不足，尤其是它们容易从预训练轨迹中学习到虚假关联，影响在新环境中的表现。

核心思路：提出的政策对比解码（PCD）方法通过对比原始视觉输入和对象遮蔽视觉输入的动作概率分布，引导机器人政策关注与任务相关的视觉信息，从而提高其泛化能力。

技术框架：PCD的整体架构包括数据预处理、动作概率分布计算和对比损失计算三个主要模块。首先，对输入视觉数据进行处理，生成原始和遮蔽的视觉输入；然后，计算对应的动作概率分布；最后，通过对比这两种分布来优化政策。

关键创新：PCD的主要创新在于其无训练特性，能够作为插件改进现有机器人政策，而无需对模型进行微调或访问权重。这一设计使得PCD具有广泛的适用性。

关键设计：在实现过程中，PCD使用了特定的对比损失函数来衡量原始和遮蔽输入之间的差异，确保机器人政策能够有效聚焦于与对象相关的视觉线索。

📊 实验亮点

实验结果显示，PCD在仿真环境中提升了最先进政策$π_0$的性能8.9%，而在现实环境中则实现了高达108%的提升。这表明PCD在不同环境下的灵活性和有效性，具有显著的实用价值。

🎯 应用场景

该研究的潜在应用领域包括服务机器人、工业自动化和智能家居等场景。通过提高机器人政策的泛化能力，PCD能够使机器人在复杂和动态环境中更灵活地执行任务，提升其实际应用价值和用户体验。未来，随着技术的进一步发展，PCD可能会在更多领域中得到应用，推动机器人技术的进步。

📄 摘要（原文）

Robotic foundation models, or generalist robot policies, hold immense potential to enable flexible, general-purpose and dexterous robotic systems. Despite their advancements, our empirical experiments reveal that existing robot policies are prone to learning spurious correlations from pre-training trajectories, adversely affecting their generalization capabilities beyond the training data. To tackle this, we propose a novel Policy Contrastive Decoding (PCD) approach, which redirects the robot policy's focus toward object-relevant visual clues by contrasting action probability distributions derived from original and object-masked visual inputs. As a training-free method, our PCD can be used as a plugin to improve different types of robot policies without needing to finetune or access model weights. We conduct extensive experiments on top of three open-source robot policies, including the autoregressive policy OpenVLA and the diffusion-based policies Octo and $π_0$. The obtained results in both simulation and real-world environments prove PCD's flexibility and effectiveness, e.g., PCD enhances the state-of-the-art policy $π_0$ by 8.9% in the simulation environment and by 108% in the real-world environment. Code and demos are publicly available at: https://Koorye.github.io/proj/PCD.

Policy Contrastive Decoding for Robotic Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册