Inverse Reinforcement Learning without an Optimal Demonstrator: A Feasible Reward Set Approach

📄 arXiv: 2605.30903v1 📥 PDF

作者: Kihyun Kim, Shripad Deshmukh, Nikos Vlassis, Jiawei Zhang

分类: cs.LG, cs.AI

发布日期: 2026-05-29


💡 一句话要点

提出可行奖励集方法以解决逆强化学习中的演示者不完美问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 逆强化学习 可行奖励集 次优演示者 线性约束 高维环境

📋 核心要点

  1. 现有的逆强化学习方法通常假设演示者是最优的,但在实际应用中,演示者往往是不完美的,导致学习效果不佳。
  2. 本文提出了一种可行奖励集框架,通过线性约束编码演示者的次优性水平,交集各演示者的可行集以进行奖励学习。
  3. 实验结果表明,该方法在网格世界和大型语言模型微调设置中优于基线,验证了理论预测的有效性。

📝 摘要(中文)

逆强化学习(IRL)通常假设来自单一最优演示者的演示,但在许多应用中,数据来自多个具有不同次优性水平的不完美演示者。本文通过可行奖励集框架研究这一设置:为每个演示者编码其声明的次优性水平作为线性约束,并交集各演示者的可行集。理论分析表明,随着数据的增加,联合可行集单调收缩,并精确描述了何时新演示者严格收紧该集。此外,建立了两个恢复保证,分别依赖于接近最优占用和足够覆盖。实践中,提出了应对奖励模糊性的策略,并提供了适用于高维环境的离线算法。实验结果与理论预测一致,展示了所提框架的有效性。

🔬 方法详解

问题定义:本文旨在解决逆强化学习中演示者不完美的问题。现有方法通常依赖于单一最优演示者,无法处理来自多个次优演示者的数据,导致学习效果受限。

核心思路:论文提出的可行奖励集框架通过为每个演示者定义线性约束,编码其次优性水平,从而交集各演示者的可行集,逐步收缩联合可行集。

技术框架:整体流程包括:首先为每个演示者建立线性约束;然后交集所有演示者的可行集;最后通过理论分析和实验验证收缩效果。

关键创新:最重要的创新在于引入可行奖励集的概念,允许从多个不完美演示者中学习,克服了传统方法的局限性。

关键设计:关键设计包括线性约束的设置、收缩算法的实现,以及在高维环境中使用的函数逼近技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提框架在网格世界任务中相较于基线方法提高了学习效率,收缩效果显著,且在大型语言模型微调中表现出更好的收敛性和稳定性,验证了理论分析的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人学习、自动驾驶、游戏AI等,能够有效处理来自多个不完美演示者的数据,提升学习效率和效果。未来,该方法有望在复杂环境中实现更高效的逆强化学习,推动智能体的自主学习能力。

📄 摘要(原文)

Inverse reinforcement learning (IRL) typically assumes demonstrations from a single optimal demonstrator, but in many applications data come from multiple imperfect demonstrators with heterogeneous suboptimality levels. We study reward learning in this setting through a feasible-reward-set framework: for each demonstrator, we encode its declared suboptimality level as a linear constraint and intersect the resulting feasible sets across demonstrators. Our theoretical analysis shows that the joint feasible set shrinks monotonically as data are added, and we give an exact characterization of when a new demonstrator strictly tightens it. We further establish two recovery guarantees for the feasible reward set of the ground-truth optimal demonstrator: one bound depends on closeness to the optimal occupancy, while the other requires only sufficient coverage and no near-optimal demonstrator. On the practical side, we introduce strategies to address the inherent reward ambiguity in the obtained reward set and provide an offline algorithm with function approximation for high-dimensional environments. Experiments in tabular grid-world and large language model (LLM) fine-tuning settings are consistent with the theoretical predictions and demonstrate the effectiveness of the proposed framework over baselines.