Imitation Learning via Focused Satisficing

📄 arXiv: 2505.14820v2 📥 PDF

作者: Rushit N. Shah, Nikolaos Agadakos, Synthia Sasulski, Ali Farajzadeh, Sanjiban Choudhury, Brian Ziebart

分类: cs.LG, cs.AI

发布日期: 2025-05-20 (更新: 2025-05-25)

备注: Accepted for publication at the 34th International Joint Conference on Artificial Intelligence (IJCAI 2025)


💡 一句话要点

提出聚焦满意度的模仿学习方法以提升行为接受度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 满意度理论 深度强化学习 动态期望 行为接受度

📋 核心要点

  1. 现有模仿学习方法通常假设演示接近最优,忽视了人类在选择行为时的动态期望水平。
  2. 本文提出的聚焦满意度方法通过边际目标引导深度强化学习,旨在超越演示者的期望水平。
  3. 实验结果显示,该方法在模仿高质量演示方面表现优越,显著提高了接受率和真实回报。

📝 摘要(中文)

模仿学习通常假设演示是基于某个固定但未知的成本函数接近最优的。然而,根据满意度理论,人类往往根据个人的(可能是动态的)期望水平选择可接受的行为,而不是追求(近乎)最优性。本文提出了一种基于边际目标的深度强化学习方法,聚焦满意度的模仿学习旨在寻找一种策略,使其在未见演示中超越演示者的期望水平,而无需明确学习这些期望。实验表明,该方法能够更好地模仿高质量的演示部分,显著提高演示者的接受率,并在多种环境中实现竞争性的真实回报。

🔬 方法详解

问题定义:本文解决的是模仿学习中对演示者期望水平的忽视问题。现有方法通常假设演示是最优的,导致在动态环境中表现不佳。

核心思路:聚焦满意度的模仿学习方法通过边际目标来引导学习,使得策略能够在未见演示中超越演示者的期望,而不需要明确学习这些期望。

技术框架:该方法的整体架构包括数据收集、边际目标设定、策略学习和评估四个主要模块。首先收集演示数据,然后设定期望水平,接着通过深度强化学习优化策略,最后评估策略的表现。

关键创新:最重要的创新在于引入了满意度理论,使得模仿学习不再仅仅追求最优解,而是关注于满足演示者的期望,从而提高了策略的实际可接受性。

关键设计:在技术细节上,采用了边际目标作为损失函数,设计了适应性网络结构,以便更好地捕捉演示者的动态期望水平。

📊 实验亮点

实验结果表明,聚焦满意度的模仿学习方法在多种环境中显著提高了演示者的接受率,达到了比现有方法更高的模仿质量。具体来说,该方法在某些任务中实现了超过20%的接受率提升,并在真实回报上与基线方法持平或更优。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶和人机交互等场景。在这些领域中,理解和模仿人类的行为模式至关重要,聚焦满意度的方法能够提升系统的可接受性和用户体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

Imitation learning often assumes that demonstrations are close to optimal according to some fixed, but unknown, cost function. However, according to satisficing theory, humans often choose acceptable behavior based on their personal (and potentially dynamic) levels of aspiration, rather than achieving (near-) optimality. For example, a lunar lander demonstration that successfully lands without crashing might be acceptable to a novice despite being slow or jerky. Using a margin-based objective to guide deep reinforcement learning, our focused satisficing approach to imitation learning seeks a policy that surpasses the demonstrator's aspiration levels -- defined over trajectories or portions of trajectories -- on unseen demonstrations without explicitly learning those aspirations. We show experimentally that this focuses the policy to imitate the highest quality (portions of) demonstrations better than existing imitation learning methods, providing much higher rates of guaranteed acceptability to the demonstrator, and competitive true returns on a range of environments.