Pessimistic Risk-Aware Policy Learning in Contextual Bandits

作者: Yilong Wan, Yuqiang Li, Xianyi Wu

分类: stat.ML, cs.LG

发布日期: 2026-05-15

💡 一句话要点

提出统一分布框架以优化风险感知的离线策略学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 风险感知 离线策略学习 上下文赌博机 Lipschitz风险 重要性采样 经验集中不等式 决策优化

📋 核心要点

现有的离线上下文赌博机文献主要集中于期望奖励标准，未能有效处理风险优化问题。
本文提出了一种统一的分布框架，旨在优化Lipschitz连续风险函数，涵盖多种风险度量。
通过新颖的经验集中不等式，得出了数据依赖的次优性界限，且与风险中性策略优化的速率相匹配。

📝 摘要（中文）

本研究探讨风险感知的离线策略学习，旨在从记录的数据中学习在一般风险标准下最优的决策规则。这一问题在高风险领域尤为重要，因为在线交互不可行且必须谨慎控制不良结果。现有文献主要集中于期望奖励标准，或将风险考虑限制在策略评估而非优化上。本文提出了一种统一的分布框架，用于优化Lipschitz连续风险函数，涵盖均值-方差、熵风险和条件价值-at-risk等多种风险度量。通过为基于重要性采样的分布估计器开发新颖的经验集中不等式，分析得出了数据依赖的次优性界限，速率为$ ilde{ ext{O}}(1/ ext{sqrt}{n})$，且不依赖于限制性的均匀重叠假设。该速率是最小最大最优的，表明优化一般Lipschitz风险标准相较于期望奖励并未增加额外的统计成本。

🔬 方法详解

问题定义：本文解决的是在高风险领域中，如何从历史数据中学习最优决策规则的问题。现有方法往往只关注期望奖励，未能有效考虑风险因素，导致在实际应用中难以控制不良结果。

核心思路：论文提出了一种统一的分布框架，旨在优化Lipschitz连续风险函数。通过引入新的经验集中不等式，能够在不依赖于均匀重叠假设的情况下，提供有效的风险优化策略。

技术框架：整体架构包括数据收集、风险函数定义、重要性采样估计和优化过程。首先从历史数据中提取信息，然后定义适当的风险度量，接着通过重要性采样进行分布估计，最后优化策略以最小化风险。

关键创新：最重要的技术创新在于提出了新的经验集中不等式，这使得在优化过程中能够有效地处理风险度量，而不需要依赖于传统的均匀重叠假设。这一创新使得风险优化的统计成本与期望奖励优化相当。

关键设计：在方法设计中，关键参数包括风险函数的选择和重要性采样的策略。此外，损失函数的设计也至关重要，以确保在优化过程中能够有效地反映风险度量的特性。

📊 实验亮点

实验结果表明，所提出的方法在风险优化的次优性界限上达到了$ ilde{ ext{O}}(1/ ext{sqrt}{n})$的速率，且与风险中性策略优化的性能相当。这一结果表明，优化Lipschitz风险标准并未增加额外的统计成本，具有显著的理论和实践意义。

🎯 应用场景

该研究的潜在应用领域包括金融决策、医疗决策和自动驾驶等高风险领域。在这些领域中，优化决策规则以控制不良结果具有重要的实际价值。未来，该方法可能推动更多风险感知的智能决策系统的发展。

📄 摘要（原文）

We study risk-aware offline policy learning, aiming to learn a decision rule from logged data that is optimal under general risk criteria. This problem is crucial in high-stakes domains where online interaction is infeasible and adverse outcomes must be carefully controlled. However, existing literature on offline contextual bandits either centers on expected-reward criteria or restricts risk considerations to policy evaluation instead of optimization. In this work, we propose a unified distributional framework for optimizing Lipschitz-continuous risk functionals, a broad class of risk measures encompassing mean-variance, entropic risk, and conditional value-at-risk, among others. By developing novel empirical concentration inequalities for importance sampling-based distributional estimators, our analysis derives data-dependent suboptimality bounds with an $\tilde{\mathcal{O}}(1/\sqrt{n})$ rate, without relying on restrictive uniform overlap assumptions. This rate is minimax optimal and matches that of risk-neutral offline policy optimization, indicating that optimizing general Lipschitz risk criteria incurs no additional statistical cost relative to the expected-reward.

Pessimistic Risk-Aware Policy Learning in Contextual Bandits

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理