Efficient Inference for Inverse Reinforcement Learning and Dynamic Discrete Choice Models
作者: Lars van der Laan, Aurelien Bibaut, Nathan Kallus
分类: cs.LG, math.ST
发布日期: 2025-12-30
💡 一句话要点
提出一种半参数逆强化学习框架,实现高效且有统计保证的奖励函数推断。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 逆强化学习 动态离散选择 半参数估计 偏差校正 因果推断
📋 核心要点
- 传统逆强化学习方法缺乏统计保证,动态离散选择模型参数限制性强,计算成本高昂。
- 利用对数行为策略作为伪奖励,通过半参数方法实现奖励函数的有效推断和偏差校正。
- 构建了自动偏差校正的机器学习估计器,在保证统计效率的同时,允许灵活的非参数估计。
📝 摘要(中文)
本文提出了一种半参数框架,用于偏差校正的逆强化学习,该框架为最大熵逆强化学习和Gumbel-shock动态离散选择模型中广泛的奖励相关泛函提供了统计上高效的推断。研究表明,对数行为策略充当伪奖励,可以明确地识别策略价值差异,并在简单的归一化下识别奖励本身。然后,将这些目标(包括已知和反事实softmax策略下的策略价值以及归一化奖励的泛函)形式化为行为策略和转移核的光滑泛函,建立路径可微性,并推导出其有效影响函数。在此基础上,构建自动偏差校正的机器学习估计器,允许灵活地非参数估计干扰成分,同时实现$\sqrt{n}$-一致性、渐近正态性和半参数效率。该框架将动态离散选择模型的经典推断扩展到非参数奖励和现代机器学习工具,为逆强化学习中的统计推断提供了一种统一且计算上易于处理的方法。
🔬 方法详解
问题定义:逆强化学习(IRL)和动态离散选择(DDC)模型旨在通过恢复使观察到的行为合理化的奖励函数来解释序列决策。现有的灵活IRL方法依赖于机器学习,但缺乏有效的推断保证。而经典的DDC方法则施加了严格的参数化约束,并且通常需要重复的动态规划,计算成本高。
核心思路:论文的核心思路是将对数行为策略视为一个伪奖励,这个伪奖励可以用来识别策略价值的差异,并且在适当的归一化后,可以直接识别奖励函数本身。通过将策略价值和奖励函数表示为行为策略和转移核的光滑泛函,可以利用半参数估计方法进行有效的推断。
技术框架:该框架主要包含以下几个阶段:1) 将奖励函数和策略价值表示为行为策略和转移核的泛函;2) 建立这些泛函的路径可微性,并推导出它们的有效影响函数;3) 构建自动偏差校正的机器学习估计器,用于非参数估计干扰成分;4) 利用估计器进行统计推断,获得$\sqrt{n}$-一致性、渐近正态性和半参数效率。
关键创新:该方法最重要的创新在于它提供了一种半参数的IRL框架,该框架既可以利用机器学习的灵活性,又可以保证统计推断的有效性。与传统的IRL方法相比,该方法不需要对奖励函数进行参数化假设,并且可以提供偏差校正的估计。
关键设计:该方法的关键设计包括:1) 使用对数行为策略作为伪奖励;2) 将奖励函数和策略价值表示为行为策略和转移核的泛函;3) 利用有效影响函数构建偏差校正的估计器。具体的参数设置和损失函数取决于所使用的机器学习模型,例如可以使用交叉熵损失函数来估计行为策略。
📊 实验亮点
该论文提出了一个半参数框架,能够对逆强化学习中的奖励函数进行高效且有统计保证的推断。该框架通过利用对数行为策略作为伪奖励,并结合偏差校正的机器学习估计器,实现了$\sqrt{n}$-一致性、渐近正态性和半参数效率。该方法将动态离散选择模型的经典推断扩展到非参数奖励和现代机器学习工具。
🎯 应用场景
该研究成果可应用于多个领域,例如:机器人学习(通过观察人类行为学习奖励函数)、经济学(理解消费者选择行为)、医疗保健(优化治疗方案)等。该方法能够更准确地推断出潜在的奖励函数,从而更好地理解和预测智能体的行为,并为决策提供支持。
📄 摘要(原文)
Inverse reinforcement learning (IRL) and dynamic discrete choice (DDC) models explain sequential decision-making by recovering reward functions that rationalize observed behavior. Flexible IRL methods typically rely on machine learning but provide no guarantees for valid inference, while classical DDC approaches impose restrictive parametric specifications and often require repeated dynamic programming. We develop a semiparametric framework for debiased inverse reinforcement learning that yields statistically efficient inference for a broad class of reward-dependent functionals in maximum entropy IRL and Gumbel-shock DDC models. We show that the log-behavior policy acts as a pseudo-reward that point-identifies policy value differences and, under a simple normalization, the reward itself. We then formalize these targets, including policy values under known and counterfactual softmax policies and functionals of the normalized reward, as smooth functionals of the behavior policy and transition kernel, establish pathwise differentiability, and derive their efficient influence functions. Building on this characterization, we construct automatic debiased machine-learning estimators that allow flexible nonparametric estimation of nuisance components while achieving $\sqrt{n}$-consistency, asymptotic normality, and semiparametric efficiency. Our framework extends classical inference for DDC models to nonparametric rewards and modern machine-learning tools, providing a unified and computationally tractable approach to statistical inference in IRL.