Distributionally Robust Policy Learning under Concept Drifts
作者: Jingyuan Wang, Zhimei Ren, Ruohan Zhan, Zhengyuan Zhou
分类: cs.LG, stat.ML
发布日期: 2024-12-18 (更新: 2025-06-01)
备注: Poster at ICML2025
期刊: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
💡 一句话要点
提出概念漂移下的分布鲁棒策略学习方法,提升策略在变化环境中的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 分布鲁棒策略学习 概念漂移 双重鲁棒估计 策略评估 强化学习
📋 核心要点
- 现有鲁棒策略学习方法通常考虑协变量和结果的联合分布的最坏情况,当存在分布偏移信息时,这种方法可能过于保守。
- 本文提出了一种更细致的问题——概念漂移下的鲁棒策略学习,只考虑结果和协变量之间条件关系的变化。
- 论文提出了双重鲁棒估计器,并设计了相应的学习算法,实验结果表明,与现有基准相比,该方法有显著改进。
📝 摘要(中文)
本文研究概念漂移下的分布鲁棒策略学习问题,旨在找到一种在最坏情况的分布偏移下表现良好的策略,其中分布偏移仅限于结果和协变量之间的条件关系的变化。为此,首先提出了一个双重鲁棒估计器,用于评估给定策略在一组扰动条件分布下的最坏情况平均奖励。证明了即使 nuisance 参数以低于根号n的速度估计,该策略价值估计器也具有渐近正态性。然后,提出了一种学习算法,该算法输出在给定策略类Π中最大化估计策略值的策略,并表明所提出算法的次优性差距为κ(Π)n^{-1/2}量级,其中κ(Π)是Π在汉明距离下的熵积分,n是样本大小。同时提供了一个匹配的下界,以表明该速率的最优性。数值研究的实现和评估表明,与现有基准相比,该方法有显著改进。
🔬 方法详解
问题定义:论文旨在解决概念漂移下分布鲁棒策略学习的问题。现有方法通常考虑协变量和结果的联合分布的最坏情况,忽略了概念漂移的特殊结构,导致不必要的保守性。因此,需要一种更精细的方法,能够利用概念漂移的信息,找到在条件分布变化下依然表现良好的策略。
核心思路:论文的核心思路是利用双重鲁棒估计器来评估策略在最坏情况下的平均奖励。双重鲁棒估计器具有良好的统计性质,即使 nuisance 参数估计不准确,也能保证策略价值估计的准确性。通过最大化该估计器,可以找到对概念漂移具有鲁棒性的策略。
技术框架:整体框架包含以下几个主要步骤:1) 定义概念漂移下的策略价值;2) 提出双重鲁棒估计器来估计策略价值;3) 设计学习算法,通过最大化估计的策略价值来学习鲁棒策略;4) 分析算法的理论性质,包括收敛速度和最优性。
关键创新:论文的关键创新在于:1) 针对概念漂移这一特定类型的分布偏移,提出了更精细的鲁棒策略学习问题;2) 提出了双重鲁棒估计器,该估计器对 nuisance 参数的估计误差具有鲁棒性,能够更准确地评估策略价值;3) 提供了算法的理论保证,证明了算法的收敛速度和最优性。与现有方法相比,该方法能够更好地利用概念漂移的信息,学习到更鲁棒的策略。
关键设计:论文的关键设计包括:1) 双重鲁棒估计器的具体形式,需要仔细设计以保证其鲁棒性和有效性;2) 学习算法的设计,需要考虑如何有效地最大化估计的策略价值;3) 理论分析中,需要使用复杂的统计工具来证明算法的收敛速度和最优性。
🖼️ 关键图片
📊 实验亮点
数值实验表明,所提出的方法在概念漂移下能够显著提高策略的性能。与现有基准方法相比,该方法能够学习到更鲁棒的策略,并且在不同的实验设置下都表现出优越的性能。论文还提供了匹配的下界,证明了算法的最优性。
🎯 应用场景
该研究成果可应用于推荐系统、广告投放、金融风控等领域,在这些领域中,环境会随着时间发生变化(即概念漂移),导致策略的性能下降。通过使用该方法,可以学习到对环境变化具有鲁棒性的策略,从而提高系统的长期性能和稳定性。
📄 摘要(原文)
Distributionally robust policy learning aims to find a policy that performs well under the worst-case distributional shift, and yet most existing methods for robust policy learning consider the worst-case joint distribution of the covariate and the outcome. The joint-modeling strategy can be unnecessarily conservative when we have more information on the source of distributional shifts. This paper studies a more nuanced problem -- robust policy learning under the concept drift, when only the conditional relationship between the outcome and the covariate changes. To this end, we first provide a doubly-robust estimator for evaluating the worst-case average reward of a given policy under a set of perturbed conditional distributions. We show that the policy value estimator enjoys asymptotic normality even if the nuisance parameters are estimated with a slower-than-root-$n$ rate. We then propose a learning algorithm that outputs the policy maximizing the estimated policy value within a given policy class $Π$, and show that the sub-optimality gap of the proposed algorithm is of the order $κ(Π)n^{-1/2}$, where $κ(Π)$ is the entropy integral of $Π$ under the Hamming distance and $n$ is the sample size. A matching lower bound is provided to show the optimality of the rate. The proposed methods are implemented and evaluated in numerical studies, demonstrating substantial improvement compared with existing benchmarks.