Sample-Efficient Expert Query Control in Active Imitation Learning via Conformal Prediction

📄 arXiv: 2512.00453v1 📥 PDF

作者: Arad Firouzkouhi, Omid Mirzaeedodangeh, Lars Lindemann

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-11-29


💡 一句话要点

提出CRSAIL,通过保角预测提升主动模仿学习的样本效率,显著降低专家查询次数。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 主动模仿学习 保角预测 样本效率 专家查询 机器人学习

📋 核心要点

  1. 主动模仿学习依赖专家查询来解决协变量偏移,但专家标注成本高昂,尤其是在复杂环境中。
  2. CRSAIL通过保角预测估计状态新颖性,仅在专家数据不足时查询,降低了查询频率。
  3. 实验表明,CRSAIL在MuJoCo任务中显著减少了专家查询次数,同时保持或超过了专家水平的奖励。

📝 摘要(中文)

主动模仿学习(AIL)通过在训练期间查询专家来对抗协变量偏移。然而,专家动作标注成本通常很高,尤其是在GPU密集型模拟器、人机交互环境以及重复访问相似状态的机器人集群中。本文提出了一种用于主动模仿学习的保角化拒绝采样方法(CRSAIL),该查询规则仅在访问的状态在专家标注数据集中代表性不足时才请求专家动作。CRSAIL通过到第K个最近专家状态的距离来评估状态的新颖性,并通过保角预测设置单个全局阈值。该阈值是在策略校准分数的经验(1-α)分位数,提供了一种无分布的校准规则,将α与预期查询率联系起来,并使α成为与任务无关的调整旋钮。这种状态空间查询策略对异常值具有鲁棒性,并且与基于安全门的主动模仿学习不同,可以在没有实时专家接管的情况下运行:我们使用学习器展开完整的轨迹(episode),然后仅在访问状态的子集上查询专家。在MuJoCo机器人任务上的评估表明,CRSAIL在匹配或超过专家级别奖励的同时,与DAgger相比,总专家查询次数减少了高达96%,与先前的主动模仿学习方法相比,减少了高达65%,并且对α和K具有经验鲁棒性,从而简化了在具有未知动力学的新系统上的部署。

🔬 方法详解

问题定义:主动模仿学习旨在通过模仿专家策略来训练智能体,但训练过程中智能体遇到的状态可能与专家数据分布存在差异(协变量偏移)。传统方法如DAgger需要频繁查询专家,成本高昂,尤其是在模拟环境或机器人系统中。现有方法在降低查询频率方面存在不足,或者需要复杂的实时专家干预。

核心思路:CRSAIL的核心思想是仅在智能体访问的状态在专家数据集中“不常见”时才查询专家。通过评估状态的新颖性,避免对已经充分学习的状态进行重复查询,从而显著降低专家查询次数。这种方法基于一个假设:智能体在专家数据集中已经充分覆盖的状态上,可以较好地模仿专家行为。

技术框架:CRSAIL包含以下主要步骤:1) 智能体在环境中执行策略并收集轨迹数据;2) 对于轨迹中的每个状态,计算其与专家数据集中最近的K个状态的距离,作为该状态的新颖性得分;3) 使用保角预测方法,基于在策略数据上的校准分数,确定一个全局阈值;4) 仅当状态的新颖性得分超过该阈值时,才向专家查询动作。

关键创新:CRSAIL的关键创新在于使用保角预测来确定查询阈值。保角预测提供了一种无分布的校准规则,可以将期望的查询率(由参数α控制)与实际的查询率联系起来。这使得α成为一个与任务无关的调整参数,方便用户根据实际需求调整查询频率。此外,CRSAIL采用离线查询方式,允许智能体完成整个轨迹后再进行查询,避免了实时专家干预。

关键设计:CRSAIL的关键设计包括:1) 使用K近邻距离作为状态新颖性度量,对异常值具有鲁棒性;2) 使用保角预测方法,基于在策略数据上的校准分数,确定全局阈值,保证查询率的校准性;3) 通过调整参数α,可以灵活控制查询频率,适应不同的任务需求;4) 采用离线查询方式,降低了对专家实时性的要求。

📊 实验亮点

CRSAIL在MuJoCo机器人任务上表现出色,与DAgger相比,专家查询次数减少了高达96%,与先前的主动模仿学习方法相比,减少了高达65%,同时保持或超过了专家水平的奖励。实验结果表明,CRSAIL对参数α和K具有鲁棒性,易于部署到具有未知动力学的新系统上。

🎯 应用场景

CRSAIL适用于各种需要模仿学习的机器人和模拟环境,尤其是在专家标注成本高昂的场景下。例如,可以应用于自动驾驶、机器人操作、游戏AI等领域,通过降低专家查询次数,加速模型训练,降低部署成本。该方法尤其适用于需要大量数据但专家标注困难的复杂任务。

📄 摘要(原文)

Active imitation learning (AIL) combats covariate shift by querying an expert during training. However, expert action labeling often dominates the cost, especially in GPU-intensive simulators, human-in-the-loop settings, and robot fleets that revisit near-duplicate states. We present Conformalized Rejection Sampling for Active Imitation Learning (CRSAIL), a querying rule that requests an expert action only when the visited state is under-represented in the expert-labeled dataset. CRSAIL scores state novelty by the distance to the $K$-th nearest expert state and sets a single global threshold via conformal prediction. This threshold is the empirical $(1-α)$ quantile of on-policy calibration scores, providing a distribution-free calibration rule that links $α$ to the expected query rate and makes $α$ a task-agnostic tuning knob. This state-space querying strategy is robust to outliers and, unlike safety-gate-based AIL, can be run without real-time expert takeovers: we roll out full trajectories (episodes) with the learner and only afterward query the expert on a subset of visited states. Evaluated on MuJoCo robotics tasks, CRSAIL matches or exceeds expert-level reward while reducing total expert queries by up to 96% vs. DAgger and up to 65% vs. prior AIL methods, with empirical robustness to $α$ and $K$, easing deployment on novel systems with unknown dynamics.