Pessimistic Risk-Aware Policy Learning in Contextual Bandits

📄 arXiv: 2605.15620v1 📥 PDF

作者: Yilong Wan, Yuqiang Li, Xianyi Wu

分类: stat.ML, cs.LG

发布日期: 2026-05-15


💡 一句话要点

提出统一分布框架以优化风险感知的离线策略学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 风险感知 离线策略学习 上下文赌博机 Lipschitz风险 重要性采样 经验集中不等式 决策优化

📋 核心要点

  1. 现有的离线上下文赌博机文献主要集中于期望奖励标准,未能有效处理风险优化问题。
  2. 本文提出了一种统一的分布框架,旨在优化Lipschitz连续风险函数,涵盖多种风险度量。
  3. 通过新颖的经验集中不等式,得出了数据依赖的次优性界限,且与风险中性策略优化的速率相匹配。

📝 摘要(中文)

本研究探讨风险感知的离线策略学习,旨在从记录的数据中学习在一般风险标准下最优的决策规则。这一问题在高风险领域尤为重要,因为在线交互不可行且必须谨慎控制不良结果。现有文献主要集中于期望奖励标准,或将风险考虑限制在策略评估而非优化上。本文提出了一种统一的分布框架,用于优化Lipschitz连续风险函数,涵盖均值-方差、熵风险和条件价值-at-risk等多种风险度量。通过为基于重要性采样的分布估计器开发新颖的经验集中不等式,分析得出了数据依赖的次优性界限,速率为$ ilde{ ext{O}}(1/ ext{sqrt}{n})$,且不依赖于限制性的均匀重叠假设。该速率是最小最大最优的,表明优化一般Lipschitz风险标准相较于期望奖励并未增加额外的统计成本。

🔬 方法详解

问题定义:本文解决的是在高风险领域中,如何从历史数据中学习最优决策规则的问题。现有方法往往只关注期望奖励,未能有效考虑风险因素,导致在实际应用中难以控制不良结果。

核心思路:论文提出了一种统一的分布框架,旨在优化Lipschitz连续风险函数。通过引入新的经验集中不等式,能够在不依赖于均匀重叠假设的情况下,提供有效的风险优化策略。

技术框架:整体架构包括数据收集、风险函数定义、重要性采样估计和优化过程。首先从历史数据中提取信息,然后定义适当的风险度量,接着通过重要性采样进行分布估计,最后优化策略以最小化风险。

关键创新:最重要的技术创新在于提出了新的经验集中不等式,这使得在优化过程中能够有效地处理风险度量,而不需要依赖于传统的均匀重叠假设。这一创新使得风险优化的统计成本与期望奖励优化相当。

关键设计:在方法设计中,关键参数包括风险函数的选择和重要性采样的策略。此外,损失函数的设计也至关重要,以确保在优化过程中能够有效地反映风险度量的特性。

📊 实验亮点

实验结果表明,所提出的方法在风险优化的次优性界限上达到了$ ilde{ ext{O}}(1/ ext{sqrt}{n})$的速率,且与风险中性策略优化的性能相当。这一结果表明,优化Lipschitz风险标准并未增加额外的统计成本,具有显著的理论和实践意义。

🎯 应用场景

该研究的潜在应用领域包括金融决策、医疗决策和自动驾驶等高风险领域。在这些领域中,优化决策规则以控制不良结果具有重要的实际价值。未来,该方法可能推动更多风险感知的智能决策系统的发展。

📄 摘要(原文)

We study risk-aware offline policy learning, aiming to learn a decision rule from logged data that is optimal under general risk criteria. This problem is crucial in high-stakes domains where online interaction is infeasible and adverse outcomes must be carefully controlled. However, existing literature on offline contextual bandits either centers on expected-reward criteria or restricts risk considerations to policy evaluation instead of optimization. In this work, we propose a unified distributional framework for optimizing Lipschitz-continuous risk functionals, a broad class of risk measures encompassing mean-variance, entropic risk, and conditional value-at-risk, among others. By developing novel empirical concentration inequalities for importance sampling-based distributional estimators, our analysis derives data-dependent suboptimality bounds with an $\tilde{\mathcal{O}}(1/\sqrt{n})$ rate, without relying on restrictive uniform overlap assumptions. This rate is minimax optimal and matches that of risk-neutral offline policy optimization, indicating that optimizing general Lipschitz risk criteria incurs no additional statistical cost relative to the expected-reward.