Auditing Demonstration Curation Metrics: Action-Only Scorers Fail on the Structural Defects That Degrade Imitation Policies

📄 arXiv: 2606.05588v1 📥 PDF

作者: Aarav Bedi

分类: cs.RO, cs.LG

发布日期: 2026-06-04

备注: 5 pages, 3 figures, 4 tables


💡 一句话要点

提出审计演示策划指标以解决模仿学习中的结构缺陷问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 演示策划 结构性缺陷 行为克隆 异常检测 策略优化 机器学习

📋 核心要点

  1. 现有的演示策划指标在识别模仿学习中的结构性缺陷方面存在显著不足,导致训练策略的质量受损。
  2. 本文提出了一种受控测试平台,通过注入已知缺陷类型,审计多种策划指标的有效性,探索其在改进策略方面的潜力。
  3. 实验结果表明,只有检查状态轨迹的指标能够识别结构性错误,而高检测率并不一定带来下游任务的成功率提升。

📝 摘要(中文)

模仿学习策略的质量依赖于其训练演示的质量,现有的策划指标旨在自动评分和过滤低质量演示。然而,这些指标在不同数据和协议下进行验证,导致其实际效果不明。本文构建了一个受控测试平台,注入已知类型的演示缺陷,审计七种策划指标,评估其在区分缺陷与干净演示方面的有效性,以及在训练行为克隆策略时是否能改善任务成功率。研究发现,微小扰动可以被多变量异常评分检测到,而结构性错误则无法被任何仅基于动作的指标识别,甚至有些指标错误地将缺陷演示评为高质量。只有检查状态轨迹的指标能够检测结构性错误,但即使是最好的指标也只能恢复三分之一的下游差距。高检测准确性并不保证下游改进。我们发布了测试平台和所有策划实现。

🔬 方法详解

问题定义:本文旨在解决现有策划指标在识别模仿学习演示中的结构性缺陷方面的不足,尤其是那些导致策略性能下降的缺陷。现有的仅基于动作的指标无法有效识别这些问题。

核心思路:通过构建一个受控测试平台,注入已知类型的演示缺陷,系统地审计多种策划指标,评估其在区分缺陷与干净演示方面的能力,以及对训练策略的影响。

技术框架:整体架构包括两个主要模块:1) 演示缺陷注入模块,负责生成带有已知缺陷的演示;2) 策划指标审计模块,评估不同指标在识别缺陷和改善策略成功率方面的表现。

关键创新:本文的主要创新在于系统性地审计多种策划指标,特别是揭示了仅基于动作的指标在识别结构性错误方面的局限性,并提出了检查状态轨迹的必要性。

关键设计:在实验中,采用了多变量异常评分方法来检测微小扰动,并设计了不同的策划指标以评估其对策略训练的影响。实验还考虑了不同类型的缺陷,以全面评估指标的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,微小扰动的检测准确率高,而结构性错误的检测则未能有效提升策略性能。特别是,某些仅基于动作的指标错误地将缺陷演示评为高质量,导致策略性能未能超过未策划基线。整体上,最佳指标仅恢复了三分之一的下游差距。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶和人机交互等领域,尤其是在需要模仿学习的场景中。通过提高演示质量的评估和选择,能够显著提升训练策略的性能,进而推动相关技术的实际应用和发展。

📄 摘要(原文)

Imitation-learning policies inherit the quality of the demonstrations they are trained on, and a growing set of curation metrics promise to score and filter low-quality demonstrations automatically. These metrics are each validated on different data with different protocols, so it is unclear which of them actually identify the demonstrations that harm a policy. We build a controlled testbed in which demonstration defects are injected with known type, and audit seven curation metrics along two axes: how well each separates defective from clean demonstrations, and whether training a behavior-cloning policy on each metric's curated subset improves task success. We study two defect regimes. Subtle perturbations (correlated action noise, tremor, truncation) are detectable by multivariate outlier scoring and, once removed, recover the full downstream gap. Structural errors, where the demonstration executes a wrong action at a key moment, are invisible to every action-only metric we test, and two of them are inverted: they score defective demonstrations as higher quality and, used for curation, tend to leave the policy at or below the uncurated baseline rather than above it. Only metrics that examine the state trajectory detect structural errors, and even the best of them recovers just a third of the downstream gap. High detection accuracy does not guarantee downstream improvement. We release the testbed and all curation implementations.