Difference-Aware Retrieval Policies for Imitation Learning

📄 arXiv: 2606.09758v1 📥 PDF

作者: Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal, Siddhartha Srinivasa, Abhishek Gupta

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-06-08

备注: 12 pages, 7 figures, 3 tables. Accepted to ICLR 2026. Code and demos available at https://weirdlabuw.github.io/darp-site/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出差异感知检索策略以解决模仿学习中的泛化问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 行为克隆 半参数化方法 机器人控制 高维特征 性能提升 智能决策

📋 核心要点

  1. 现有的参数化模仿学习方法在面对分布外状态时,因累积错误导致泛化能力不足。
  2. DARP通过半参数化检索方法,利用局部邻域结构来预测动作,避免了全局策略的局限性。
  3. 在多个领域的实验中,DARP相较于标准行为克隆实现了15-46%的性能提升,显示出其有效性。

📝 摘要(中文)

参数化模仿学习通过行为克隆在面对分布外状态时可能会出现较差的泛化能力,主要由于在部署过程中累积的错误。本文提出了一种半参数化的基于检索的模仿学习方法——差异感知检索策略(DARP),通过在推理过程中重用训练数据来缓解这一挑战。DARP通过重新参数化模仿学习问题,基于局部邻域结构而非直接的状态到动作映射,训练模型根据专家演示的k近邻及其对应动作和邻居状态与查询状态之间的相对距离向量来预测动作。DARP不需要额外的数据收集、在线专家反馈或任务特定知识。实验表明,在连续控制和机器人操作等多个领域,DARP在不同表示(包括高维视觉特征)下相较于标准行为克隆表现出15-46%的性能提升。

🔬 方法详解

问题定义:本文旨在解决参数化模仿学习在分布外状态下的泛化能力不足的问题,现有的行为克隆方法在实际部署中容易因错误累积而导致性能下降。

核心思路:DARP的核心思路是通过半参数化检索方法,利用专家演示的k近邻及其对应动作,结合邻居状态与查询状态之间的相对距离向量来进行动作预测,从而避免直接的状态到动作映射。

技术框架:DARP的整体架构包括数据检索模块、动作预测模块和距离计算模块。首先,从训练数据中检索出k近邻,然后基于这些邻居的动作和距离信息进行动作预测。

关键创新:DARP的主要创新在于其通过局部邻域结构重新定义模仿学习问题,避免了全局策略的局限性,并且不需要额外的数据收集或专家反馈。

关键设计:DARP的设计中,k近邻的选择和距离计算是关键参数,损失函数采用了基于邻居动作的加权损失,确保了模型在不同状态下的适应性。网络结构上,DARP结合了深度学习模型以处理高维特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,DARP在多个领域的表现均优于标准行为克隆,性能提升幅度在15%到46%之间,尤其在高维视觉特征的处理上表现突出,验证了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、智能制造等,能够有效提升系统在复杂环境下的适应能力和决策质量。未来,DARP有望在更多实际应用中推广,推动模仿学习技术的发展。

📄 摘要(原文)

Parametric imitation learning via behavior cloning can suffer from poor generalization to out-of-distribution states due to compounding errors during deployment. We show that reusing the training data during inference via a semi-parametric retrieval-based imitation learning approach can alleviate this challenge. We present Difference-Aware Retrieval Policies for Imitation Learning (DARP), a semi-parametric retrieval-based imitation learning approach that addresses this limitation by reparameterizing the imitation learning problem in terms of local neighborhood structure rather than direct state-to-action mappings. Instead of learning a global policy, DARP trains a model to predict actions based on $k$-nearest neighbors from expert demonstrations, their corresponding actions, and the relative distance vectors between neighbor states and query states. DARP requires no additional assumptions beyond those made for standard behavior cloning -- it does not require additional data collection, online expert feedback, or task-specific knowledge. We demonstrate consistent performance improvements of 15-46% over standard behavior cloning across diverse domains, including continuous control and robotic manipulation, and across different representations, including high-dimensional visual features. Code and demos are available at https://weirdlabuw.github.io/darp-site/.