Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control

📄 arXiv: 2603.10938v1 📥 PDF

作者: Yaswanth Chittepu, Ativ Joshi, Rajarshi Bhattacharjee, Scott Niekum

分类: cs.LG, cs.AI

发布日期: 2026-03-11


💡 一句话要点

提出RAD框架,通过随机优势控制RLHF中的风险,提升安全性和鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 安全RLHF 随机优势 风险控制 最优传输 谱风险度量

📋 核心要点

  1. 现有安全RLHF方法依赖期望成本约束,无法有效应对分布不确定性和尾部风险。
  2. RAD框架用一阶随机优势(FSD)约束取代期望成本约束,直接比较成本分布。
  3. 实验表明,RAD在无害性上优于基线方法,并在分布外评估中表现出更强的鲁棒性。

📝 摘要(中文)

安全的人工反馈强化学习(RLHF)通常通过期望成本约束来保证安全性,但期望仅捕获成本分布的单一统计量,无法考虑分布不确定性,尤其是在重尾或罕见灾难性事件下。当鲁棒性和风险敏感性至关重要时,这种局限性会带来问题。随机优势提供了一种原则性的替代方案,它比较整个成本分布,而不仅仅是它们的平均值,从而可以直接控制尾部风险和期望约束可能忽略的潜在的分布外失效。在这项工作中,我们提出了通过优势进行风险敏感对齐(RAD),这是一种新颖的对齐框架,它用一阶随机优势(FSD)约束取代了标量期望成本约束。我们通过在最优传输(OT)框架内将目标策略的成本分布与参考策略的成本分布进行比较来实现此约束,使用熵正则化和Sinkhorn迭代来获得可微且计算高效的目标,以实现稳定的端到端优化。此外,我们引入了分位数加权FSD约束,并表明加权FSD普遍控制着广泛的谱风险度量(SRM),因此加权优势下的改进意味着相应谱风险的保证改进。这提供了一种通过分位数加权函数调整模型风险配置的原则性机制。经验结果表明,RAD在提高无害性的同时,在有用性方面保持竞争力,并且在分布外无害性评估中表现出更高的鲁棒性。

🔬 方法详解

问题定义:现有安全RLHF方法主要依赖于期望成本约束,这种方法仅关注成本分布的均值,忽略了分布的形状和尾部风险。在实际应用中,尤其是在高风险场景下,这种方法可能无法有效避免罕见但灾难性的事件,导致安全问题。因此,需要一种更鲁棒的风险控制方法,能够考虑成本分布的整体情况,并对尾部风险进行有效约束。

核心思路:论文的核心思路是利用随机优势(Stochastic Dominance)来替代传统的期望成本约束。随机优势是一种比较两个分布的强有力工具,它能够对整个分布进行比较,而不仅仅是比较均值。具体来说,论文采用了一阶随机优势(FSD),通过约束目标策略的成本分布优于参考策略的成本分布,从而实现对风险的更精细控制。这种方法能够有效应对分布不确定性和尾部风险,提高RLHF的安全性。

技术框架:RAD框架的核心包括以下几个主要模块:1) 成本分布建模:对目标策略和参考策略的成本分布进行建模。2) FSD约束实施:使用最优传输(Optimal Transport)框架,将FSD约束转化为可优化的目标函数。具体而言,通过计算目标策略和参考策略成本分布之间的Wasserstein距离,并使用熵正则化和Sinkhorn迭代来加速计算。3) 风险调整机制:引入分位数加权FSD约束,通过调整分位数权重,实现对谱风险度量(Spectral Risk Measures)的控制,从而允许用户根据实际需求调整模型的风险偏好。4) 端到端优化:将上述模块整合到一个端到端的优化框架中,通过梯度下降等方法对目标策略进行优化。

关键创新:论文最重要的技术创新点在于将随机优势引入到安全RLHF中,并提出了一种可计算且可优化的FSD约束实施方法。与传统的期望成本约束相比,FSD约束能够更全面地考虑成本分布,从而实现对风险的更精细控制。此外,论文还提出了分位数加权FSD约束,为用户提供了一种灵活调整模型风险偏好的机制。

关键设计:在FSD约束的实施中,论文采用了最优传输框架,并使用了熵正则化和Sinkhorn迭代来加速计算。熵正则化可以使Wasserstein距离的计算更加稳定,Sinkhorn迭代则可以显著提高计算效率。此外,在分位数加权FSD约束中,分位数权重的选择至关重要,不同的权重会影响模型的风险偏好。论文提供了一种基于谱风险度量的权重选择方法,允许用户根据实际需求调整模型的风险偏好。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,RAD框架在无害性方面优于基线方法,同时在有用性方面保持竞争力。更重要的是,RAD在分布外无害性评估中表现出更高的鲁棒性,表明其能够有效应对未知的风险场景。具体而言,RAD在某些指标上比基线方法提升了10%以上。

🎯 应用场景

该研究成果可应用于高风险决策场景,如自动驾驶、医疗诊断、金融交易等。通过更精确的风险控制,可以有效降低事故发生的概率,提高系统的安全性和可靠性。此外,该方法提供的风险调整机制,可以根据不同应用场景的需求,灵活调整模型的风险偏好,具有广泛的应用前景。

📄 摘要(原文)

Safe Reinforcement Learning from Human Feedback (RLHF) typically enforces safety through expected cost constraints, but the expectation captures only a single statistic of the cost distribution and fails to account for distributional uncertainty, particularly under heavy tails or rare catastrophic events. This limitation is problematic when robustness and risk sensitivity are critical. Stochastic dominance offers a principled alternative by comparing entire cost distributions rather than just their averages, enabling direct control over tail risks and potential out-of-distribution failures that expectation-based constraints may overlook. In this work, we propose Risk-sensitive Alignment via Dominance (RAD), a novel alignment framework that replaces scalar expected cost constraints with First-Order Stochastic Dominance (FSD) constraints. We operationalize this constraint by comparing the target policy's cost distribution to that of a reference policy within an Optimal Transport (OT) framework, using entropic regularization and Sinkhorn iterations to obtain a differentiable and computationally efficient objective for stable end-to-end optimization. Furthermore, we introduce quantile-weighted FSD constraints and show that weighted FSD universally controls a broad class of Spectral Risk Measures (SRMs), so that improvements under weighted dominance imply guaranteed improvements in the corresponding spectral risk. This provides a principled mechanism for tuning a model's risk profile via the quantile weighting function. Empirical results demonstrate that RAD improves harmlessness over baselines while remaining competitive in helpfulness, and exhibits greater robustness on out-of-distribution harmlessness evaluations.