Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference

作者: Lars van der Laan, David Hubbard, Allen Tran, Nathan Kallus, Aurélien Bibaut

分类: stat.ML, cs.LG, stat.ME

发布日期: 2025-01-12 (更新: 2025-11-12)

💡 一句话要点

提出半参数双重强化学习，用于长期因果推断，提升策略价值估计效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 双重强化学习 半参数模型 长期因果推断 马尔可夫决策过程 Q函数 策略价值估计 超高效估计器

📋 核心要点

现有双重强化学习方法在长期因果推断中，需要严格的状态轨迹重叠条件，限制了其应用范围。
论文提出半参数双重强化学习，通过对Q函数施加结构，降低了对状态轨迹重叠条件的要求。
该方法避免了高维密度比估计，并引入超高效非参数估计器，降低了计算复杂度，提升了估计效率。

📝 摘要（中文）

双重强化学习(DRL)能够对非参数马尔可夫决策过程(MDP)中的策略值进行高效推断，但现有方法面临两个主要障碍：(1)它们需要在状态轨迹上施加严格的时序重叠条件；(2)它们依赖于估计高维占用密度比。受长期因果推断问题的驱动，我们将DRL扩展到半参数设置，并为无限视界、时齐MDP中Q函数的一般线性泛函开发了双重鲁棒的自动估计器。通过对Q函数施加结构，我们放宽了非参数方法所需的重叠条件，并获得了效率提升。第二个障碍——密度比估计——通常需要计算成本高昂且不稳定的min-max优化。为了应对这两个挑战，我们引入了超高效非参数估计器，其极限方差低于广义Cramer-Rao界。这些估计器将Q函数视为状态-动作过程的一维摘要，从而将高维重叠要求降低到一维条件。该过程易于实现：使用拟合Q迭代估计和校准Q函数，然后将结果插入目标泛函，从而完全避免了密度比估计。

🔬 方法详解

问题定义：论文旨在解决在无限视界、时齐马尔可夫决策过程(MDP)中，对Q函数的一般线性泛函进行有效推断的问题，尤其是在长期因果推断的背景下。现有非参数双重强化学习方法需要严格的状态轨迹重叠条件，并且依赖于估计高维占用密度比，这在实际应用中带来了挑战，限制了其适用性。

核心思路：论文的核心思路是将双重强化学习扩展到半参数设置，通过对Q函数施加结构性假设，来放宽对状态轨迹重叠条件的要求，并利用超高效非参数估计器来避免高维密度比估计。这种方法将Q函数视为状态-动作过程的一维摘要，从而简化了问题。

技术框架：该方法主要包含以下几个阶段：1. 对Q函数进行参数化建模，引入结构性假设。2. 使用拟合Q迭代(Fitted Q-Iteration)方法估计和校准Q函数。3. 将估计得到的Q函数插入到目标泛函中，直接估计目标泛函的值，避免了密度比估计。

关键创新：论文的关键创新在于：1. 将双重强化学习扩展到半参数设置，通过对Q函数施加结构，放宽了重叠条件。2. 引入了超高效非参数估计器，其极限方差低于广义Cramer-Rao界，提高了估计效率。3. 避免了高维密度比估计，降低了计算复杂度。

关键设计：论文的关键设计包括：1. 选择合适的Q函数参数化形式，以反映问题的结构。2. 使用拟合Q迭代方法进行Q函数估计，并进行适当的校准。3. 设计超高效非参数估计器，使其能够达到理论上的最优估计效率。

🖼️ 关键图片

📊 实验亮点

论文提出了超高效非参数估计器，其极限方差低于广义Cramer-Rao界，表明该估计器具有更高的估计效率。通过对Q函数施加结构，放宽了对状态轨迹重叠条件的要求，使得该方法在更广泛的场景下适用。避免了高维密度比估计，降低了计算复杂度。

🎯 应用场景

该研究成果可广泛应用于长期因果推断领域，例如医疗决策、公共政策评估等。通过更有效地估计策略价值，可以帮助决策者制定更优的干预策略，从而改善长期结果。此外，该方法在推荐系统、金融交易等领域也具有潜在的应用价值。

📄 摘要（原文）

Double Reinforcement Learning (DRL) enables efficient inference for policy values in nonparametric Markov decision processes (MDPs), but existing methods face two major obstacles: (1) they require stringent intertemporal overlap conditions on state trajectories, and (2) they rely on estimating high-dimensional occupancy density ratios. Motivated by problems in long-term causal inference, we extend DRL to a semiparametric setting and develop doubly robust, automatic estimators for general linear functionals of the Q-function in infinite-horizon, time-homogeneous MDPs. By imposing structure on the Q-function, we relax the overlap conditions required by nonparametric methods and obtain efficiency gains. The second obstacle--density-ratio estimation--typically requires computationally expensive and unstable min-max optimization. To address both challenges, we introduce superefficient nonparametric estimators whose limiting variance falls below the generalized Cramer-Rao bound. These estimators treat the Q-function as a one-dimensional summary of the state-action process, reducing high-dimensional overlap requirements to a single-dimensional condition. The procedure is simple to implement: estimate and calibrate the Q-function using fitted Q-iteration, then plug the result into the target functional, thereby avoiding density-ratio estimation altogether.

Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理