Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference

📄 arXiv: 2501.06926v4 📥 PDF

作者: Lars van der Laan, David Hubbard, Allen Tran, Nathan Kallus, Aurélien Bibaut

分类: stat.ML, cs.LG, stat.ME

发布日期: 2025-01-12 (更新: 2025-11-12)


💡 一句话要点

提出半参数双重强化学习,用于长期因果推断,提升策略价值估计效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双重强化学习 半参数模型 长期因果推断 马尔可夫决策过程 Q函数 策略价值估计 超高效估计器

📋 核心要点

  1. 现有双重强化学习方法在长期因果推断中,需要严格的状态轨迹重叠条件,限制了其应用范围。
  2. 论文提出半参数双重强化学习,通过对Q函数施加结构,降低了对状态轨迹重叠条件的要求。
  3. 该方法避免了高维密度比估计,并引入超高效非参数估计器,降低了计算复杂度,提升了估计效率。

📝 摘要(中文)

双重强化学习(DRL)能够对非参数马尔可夫决策过程(MDP)中的策略值进行高效推断,但现有方法面临两个主要障碍:(1)它们需要在状态轨迹上施加严格的时序重叠条件;(2)它们依赖于估计高维占用密度比。受长期因果推断问题的驱动,我们将DRL扩展到半参数设置,并为无限视界、时齐MDP中Q函数的一般线性泛函开发了双重鲁棒的自动估计器。通过对Q函数施加结构,我们放宽了非参数方法所需的重叠条件,并获得了效率提升。第二个障碍——密度比估计——通常需要计算成本高昂且不稳定的min-max优化。为了应对这两个挑战,我们引入了超高效非参数估计器,其极限方差低于广义Cramer-Rao界。这些估计器将Q函数视为状态-动作过程的一维摘要,从而将高维重叠要求降低到一维条件。该过程易于实现:使用拟合Q迭代估计和校准Q函数,然后将结果插入目标泛函,从而完全避免了密度比估计。

🔬 方法详解

问题定义:论文旨在解决在无限视界、时齐马尔可夫决策过程(MDP)中,对Q函数的一般线性泛函进行有效推断的问题,尤其是在长期因果推断的背景下。现有非参数双重强化学习方法需要严格的状态轨迹重叠条件,并且依赖于估计高维占用密度比,这在实际应用中带来了挑战,限制了其适用性。

核心思路:论文的核心思路是将双重强化学习扩展到半参数设置,通过对Q函数施加结构性假设,来放宽对状态轨迹重叠条件的要求,并利用超高效非参数估计器来避免高维密度比估计。这种方法将Q函数视为状态-动作过程的一维摘要,从而简化了问题。

技术框架:该方法主要包含以下几个阶段:1. 对Q函数进行参数化建模,引入结构性假设。2. 使用拟合Q迭代(Fitted Q-Iteration)方法估计和校准Q函数。3. 将估计得到的Q函数插入到目标泛函中,直接估计目标泛函的值,避免了密度比估计。

关键创新:论文的关键创新在于:1. 将双重强化学习扩展到半参数设置,通过对Q函数施加结构,放宽了重叠条件。2. 引入了超高效非参数估计器,其极限方差低于广义Cramer-Rao界,提高了估计效率。3. 避免了高维密度比估计,降低了计算复杂度。

关键设计:论文的关键设计包括:1. 选择合适的Q函数参数化形式,以反映问题的结构。2. 使用拟合Q迭代方法进行Q函数估计,并进行适当的校准。3. 设计超高效非参数估计器,使其能够达到理论上的最优估计效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了超高效非参数估计器,其极限方差低于广义Cramer-Rao界,表明该估计器具有更高的估计效率。通过对Q函数施加结构,放宽了对状态轨迹重叠条件的要求,使得该方法在更广泛的场景下适用。避免了高维密度比估计,降低了计算复杂度。

🎯 应用场景

该研究成果可广泛应用于长期因果推断领域,例如医疗决策、公共政策评估等。通过更有效地估计策略价值,可以帮助决策者制定更优的干预策略,从而改善长期结果。此外,该方法在推荐系统、金融交易等领域也具有潜在的应用价值。

📄 摘要(原文)

Double Reinforcement Learning (DRL) enables efficient inference for policy values in nonparametric Markov decision processes (MDPs), but existing methods face two major obstacles: (1) they require stringent intertemporal overlap conditions on state trajectories, and (2) they rely on estimating high-dimensional occupancy density ratios. Motivated by problems in long-term causal inference, we extend DRL to a semiparametric setting and develop doubly robust, automatic estimators for general linear functionals of the Q-function in infinite-horizon, time-homogeneous MDPs. By imposing structure on the Q-function, we relax the overlap conditions required by nonparametric methods and obtain efficiency gains. The second obstacle--density-ratio estimation--typically requires computationally expensive and unstable min-max optimization. To address both challenges, we introduce superefficient nonparametric estimators whose limiting variance falls below the generalized Cramer-Rao bound. These estimators treat the Q-function as a one-dimensional summary of the state-action process, reducing high-dimensional overlap requirements to a single-dimensional condition. The procedure is simple to implement: estimate and calibrate the Q-function using fitted Q-iteration, then plug the result into the target functional, thereby avoiding density-ratio estimation altogether.