Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback

作者: Michelle Zhao, Reid Simmons, Henny Admoni, Aaditya Ramdas, Andrea Bajcsy

分类: cs.RO, cs.AI, cs.HC, cs.LG

发布日期: 2024-10-11 (更新: 2025-04-29)

💡 一句话要点

提出ConformalDAgger，通过在线置信预测提升交互式模仿学习在策略偏移下的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 交互式模仿学习 不确定性量化 在线置信预测 分布偏移 间歇分位数跟踪

📋 核心要点

现有交互式模仿学习方法在部署时面临分布偏移，导致不确定性估计不准确，影响学习效果。
提出ConformalDAgger，利用在线置信预测和间歇分位数跟踪（IQT）算法，动态校准机器人不确定性。
实验表明，ConformalDAgger在策略偏移下能有效检测高不确定性，增加专家干预，加速学习新行为。

📝 摘要（中文）

在交互式模仿学习（IL）中，不确定性量化提供了一种方法，使学习者（即机器人）能够通过主动向专家（即人类）在线寻求额外反馈来应对部署期间遇到的分布偏移。先前的工作使用诸如集成不一致或蒙特卡洛dropout之类的机制来量化黑盒IL策略何时不确定；然而，当面临部署时分布偏移时，这些方法可能导致过度自信的估计。相反，我们认为我们需要能够利用部署期间收到的专家人类反馈来在线调整机器人不确定性的不确定性量化算法。为了解决这个问题，我们借鉴了在线置信预测，这是一种在给定真实标签流的情况下在线构建预测区间的无分布方法。然而，在交互式IL设置中，人类标签是间歇性的。因此，从置信预测方面，我们引入了一种名为间歇分位数跟踪（IQT）的新型不确定性量化算法，该算法利用间歇标签的概率模型，保持渐近覆盖保证，并在经验上实现所需的覆盖水平。从交互式IL方面，我们开发了一种新方法ConformalDAgger，其中机器人使用由IQT校准的预测区间作为部署时不确定性的可靠度量，以主动查询更多专家反馈。我们将ConformalDAgger与先前的uncertainty-aware DAgger方法在由于专家策略变化而导致分布偏移存在（和不存在）的情况下进行比较。我们发现在7自由度机器人机械臂的模拟和硬件部署中，ConformalDAgger检测到专家偏移时的高不确定性，并增加了与基线相比的干预次数，从而使机器人能够更快地学习新行为。

🔬 方法详解

问题定义：交互式模仿学习旨在让机器人通过与人类专家的交互学习策略。然而，在实际部署中，由于环境变化或专家策略改变，机器人经常遇到分布偏移，导致先前学习的策略失效。现有方法，如集成不一致性或蒙特卡洛dropout，在量化不确定性时无法有效适应这种偏移，导致过度自信的估计，从而影响学习效果。因此，需要一种能够利用在线专家反馈来动态调整不确定性估计的方法。

核心思路：ConformalDAgger的核心思路是利用在线置信预测框架，结合专家反馈，动态构建预测区间，作为机器人不确定性的可靠度量。通过在线置信预测，可以根据新观测到的数据不断调整预测区间，从而适应分布偏移。此外，针对交互式模仿学习中专家反馈的间歇性特点，提出了间歇分位数跟踪（IQT）算法，以更有效地利用有限的专家反馈。

技术框架：ConformalDAgger的整体框架如下： 1. 策略学习：使用模仿学习算法（如DAgger）训练初始策略。 2. 不确定性量化：使用IQT算法，根据历史数据和专家反馈，构建预测区间，量化当前状态的不确定性。 3. 主动查询：当不确定性超过阈值时，主动向专家请求反馈。 4. 策略更新：根据专家反馈更新策略和IQT模型。

关键创新：ConformalDAgger的关键创新在于： 1. 在线置信预测：将在线置信预测引入交互式模仿学习，实现不确定性的动态量化。 2. 间歇分位数跟踪（IQT）：针对专家反馈的间歇性，设计了IQT算法，更有效地利用有限的专家反馈。 3. ConformalDAgger算法：将IQT与DAgger算法结合，实现不确定性驱动的主动学习。

关键设计：IQT算法的关键设计在于使用概率模型来处理间歇性标签。具体来说，IQT维护一个分位数的概率分布，并根据观测到的标签和未观测到的标签的概率，在线更新该分布。ConformalDAgger使用IQT输出的预测区间的宽度作为不确定性的度量，并设置一个阈值。当预测区间的宽度超过阈值时，机器人会主动向专家请求反馈。阈值的选择会影响学习速度和性能，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

在7自由度机器人机械臂的模拟和硬件部署中，ConformalDAgger在专家策略发生偏移时，能够有效检测到高不确定性，并增加专家干预的次数。实验结果表明，与基线方法相比，ConformalDAgger能够更快地学习新的行为，并且在某些情况下，能够显著提高任务完成的成功率。

🎯 应用场景

ConformalDAgger可应用于各种需要机器人与人类专家交互学习的场景，例如：复杂环境下的机器人导航、需要精细操作的机器人装配、以及个性化医疗辅助机器人。该方法能够提高机器人在动态环境下的适应性和学习效率，降低对大量离线数据的依赖，并提升人机协作的安全性。

📄 摘要（原文）

In interactive imitation learning (IL), uncertainty quantification offers a way for the learner (i.e. robot) to contend with distribution shifts encountered during deployment by actively seeking additional feedback from an expert (i.e. human) online. Prior works use mechanisms like ensemble disagreement or Monte Carlo dropout to quantify when black-box IL policies are uncertain; however, these approaches can lead to overconfident estimates when faced with deployment-time distribution shifts. Instead, we contend that we need uncertainty quantification algorithms that can leverage the expert human feedback received during deployment time to adapt the robot's uncertainty online. To tackle this, we draw upon online conformal prediction, a distribution-free method for constructing prediction intervals online given a stream of ground-truth labels. Human labels, however, are intermittent in the interactive IL setting. Thus, from the conformal prediction side, we introduce a novel uncertainty quantification algorithm called intermittent quantile tracking (IQT) that leverages a probabilistic model of intermittent labels, maintains asymptotic coverage guarantees, and empirically achieves desired coverage levels. From the interactive IL side, we develop ConformalDAgger, a new approach wherein the robot uses prediction intervals calibrated by IQT as a reliable measure of deployment-time uncertainty to actively query for more expert feedback. We compare ConformalDAgger to prior uncertainty-aware DAgger methods in scenarios where the distribution shift is (and isn't) present because of changes in the expert's policy. We find that in simulated and hardware deployments on a 7DOF robotic manipulator, ConformalDAgger detects high uncertainty when the expert shifts and increases the number of interventions compared to baselines, allowing the robot to more quickly learn the new behavior.

Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理