Learning Optimal and Sample-Efficient Decision Policies with Guarantees

📄 arXiv: 2602.17978v1 📥 PDF

作者: Daqian Shao

分类: cs.LG, cs.AI

发布日期: 2026-02-20

备注: A thesis submitted for the degree of DPhil in Computer Science at Oxford


💡 一句话要点

针对高风险决策,提出一种具有保证的、样本高效的强化学习策略学习方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 离线学习 因果推断 工具变量 条件矩约束 样本效率 决策策略

📋 核心要点

  1. 传统强化学习算法需要大量在线交互,但在交互成本高昂或危险的场景中不可行,离线学习又受隐藏混杂因素干扰。
  2. 利用工具变量识别因果效应,并借鉴双重/去偏机器学习,提出一种样本高效的条件矩约束问题求解算法。
  3. 在强化学习基准和合成数据集上验证了所提方法的有效性,证明其在现实决策中的实用性,并提升了样本效率。

📝 摘要(中文)

强化学习和深度学习彻底改变了决策范式。尽管这在机器人、医疗保健和金融等领域取得了显著进展,但在实践中使用强化学习仍然具有挑战性,尤其是在需要保证的高风险应用中学习决策策略时。传统的强化学习算法依赖于与环境的大量在线交互,这在在线交互成本高昂、危险或不可行的情况下是有问题的。然而,从离线数据集学习受到隐藏混杂因素的影响。这些混杂因素会导致数据集中的虚假相关性,并可能误导智能体采取次优或对抗性行动。首先,我们解决了在存在隐藏混杂因素的情况下从离线数据集学习的问题。我们使用工具变量(IV)来识别因果效应,这是一个条件矩约束(CMR)问题的实例。受双重/去偏机器学习的启发,我们推导出一种样本高效的算法,用于解决具有收敛性和最优性保证的CMR问题,该算法优于最先进的算法。其次,我们放宽了(离线)模仿学习中隐藏混杂因素的条件,并调整我们的CMR估计器,以推导出一种可以学习具有收敛速度保证的有效模仿策略的算法。最后,我们考虑学习以线性时序逻辑(LTL)表示的高级目标的问题,并开发了一种可证明最优的学习算法,该算法提高了现有方法的样本效率。通过在强化学习基准和合成和半合成数据集上的评估,我们证明了本论文中开发的方法在现实世界决策中的有用性。

🔬 方法详解

问题定义:论文旨在解决在存在隐藏混杂因素的情况下,如何从离线数据集中学习到可靠的决策策略。现有强化学习方法要么需要大量的在线交互,这在许多实际场景中是不可行的;要么在离线学习时,受到数据集中隐藏混杂因素的影响,导致学习到的策略存在偏差,甚至做出错误的决策。

核心思路:论文的核心思路是利用工具变量(Instrumental Variables, IVs)来识别因果效应,从而消除隐藏混杂因素的影响。具体来说,将问题建模为条件矩约束(Conditional Moment Restrictions, CMR)问题,并借鉴双重/去偏机器学习的思想,设计一种样本高效的算法来求解该问题。

技术框架:整体框架包含以下几个主要步骤:1) 利用工具变量构建条件矩约束问题;2) 使用提出的样本高效算法求解CMR问题,得到因果效应的估计;3) 基于估计的因果效应,学习决策策略。对于模仿学习,则调整CMR估计器以适应模仿学习的场景。对于线性时序逻辑(LTL)目标,开发一种可证明最优的学习算法。

关键创新:最重要的技术创新点在于提出了一种样本高效的算法来解决条件矩约束问题,该算法具有收敛性和最优性保证,并且优于现有算法。此外,该算法还被扩展到模仿学习和线性时序逻辑目标学习等场景。

关键设计:论文的关键设计包括:1) 如何选择合适的工具变量;2) 如何构建有效的条件矩约束;3) 如何设计样本高效的优化算法,以保证收敛性和最优性;4) 如何将算法扩展到模仿学习和线性时序逻辑目标学习等场景。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述。

📊 实验亮点

论文通过在强化学习基准和合成/半合成数据集上的实验,验证了所提方法的有效性。实验结果表明,该方法在存在隐藏混杂因素的情况下,能够学习到比现有方法更优的决策策略,并且具有更高的样本效率。具体的性能提升数据在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于高风险决策领域,如医疗诊断、金融投资、自动驾驶等。在这些领域,在线交互成本高昂或存在风险,因此需要从离线数据中学习可靠的决策策略。该方法能够消除隐藏混杂因素的影响,提高决策的准确性和安全性,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

The paradigm of decision-making has been revolutionised by reinforcement learning and deep learning. Although this has led to significant progress in domains such as robotics, healthcare, and finance, the use of RL in practice is challenging, particularly when learning decision policies in high-stakes applications that may require guarantees. Traditional RL algorithms rely on a large number of online interactions with the environment, which is problematic in scenarios where online interactions are costly, dangerous, or infeasible. However, learning from offline datasets is hindered by the presence of hidden confounders. Such confounders can cause spurious correlations in the dataset and can mislead the agent into taking suboptimal or adversarial actions. Firstly, we address the problem of learning from offline datasets in the presence of hidden confounders. We work with instrumental variables (IVs) to identify the causal effect, which is an instance of a conditional moment restrictions (CMR) problem. Inspired by double/debiased machine learning, we derive a sample-efficient algorithm for solving CMR problems with convergence and optimality guarantees, which outperforms state-of-the-art algorithms. Secondly, we relax the conditions on the hidden confounders in the setting of (offline) imitation learning, and adapt our CMR estimator to derive an algorithm that can learn effective imitator policies with convergence rate guarantees. Finally, we consider the problem of learning high-level objectives expressed in linear temporal logic (LTL) and develop a provably optimal learning algorithm that improves sample efficiency over existing methods. Through evaluation on reinforcement learning benchmarks and synthetic and semi-synthetic datasets, we demonstrate the usefulness of the methods developed in this thesis in real-world decision making.