LRT-Diffusion: Calibrated Risk-Aware Guidance for Diffusion Policies
作者: Ximan Sun, Xiang Cheng
分类: cs.LG, cs.AI
发布日期: 2025-10-28
💡 一句话要点
LRT-Diffusion:用于离线强化学习中具有校准风险意识的扩散策略引导方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 扩散模型 风险感知 假设检验 分布外泛化
📋 核心要点
- 现有离线强化学习中的扩散策略缺乏对风险的统计考量,依赖启发式方法引导采样,导致性能受限。
- LRT-Diffusion将去噪过程视为假设检验,通过累积对数似然比并使用logistic控制器,实现风险感知的采样引导。
- 实验表明,LRT-Diffusion在D4RL MuJoCo任务上,在满足用户指定风险水平的同时,提升了回报-OOD权衡,优于Q引导基线。
📝 摘要(中文)
扩散策略在离线强化学习(RL)中表现出色,但通常在采样时受到缺乏统计风险概念的启发式方法引导。我们提出了LRT-Diffusion,一种风险感知的采样规则,它将每个去噪步骤视为无条件先验和状态条件策略头之间的顺序假设检验。具体而言,我们累积对数似然比,并使用logistic控制器门控条件均值,该控制器的阈值tau在H0下校准一次,以满足用户指定的I类错误水平alpha。这使得引导从固定的推动转变为具有用户可解释的风险预算的证据驱动调整。重要的是,我们特意保持训练过程的原始状态(具有标准epsilon预测的双头),遵循DDPM的结构。LRT引导自然地与Q梯度结合:critic梯度更新可以在无条件均值、LRT门控均值或两者的混合处进行,从而暴露了从利用到保守的连续统一体。我们在训练和测试时一致地标准化状态和动作,并报告状态条件下的分布外(OOD)指标以及回报。在D4RL MuJoCo任务上,LRT-Diffusion在我们的实现中改进了回报-OOD权衡,优于强大的Q引导基线,同时满足所需的alpha。从理论上讲,我们建立了alpha水平校准、简洁的稳定性界限以及回报比较,表明LRT何时超越Q引导——尤其是在非支持错误占主导地位时。总而言之,LRT-Diffusion是一种即插即用的推理时方法,它为离线RL的扩散策略增加了有原则的、校准的风险控制。
🔬 方法详解
问题定义:离线强化学习中的扩散策略通常使用启发式方法进行采样引导,这些方法缺乏对风险的统计考量,可能导致策略在未知状态下表现不佳,影响整体性能和安全性。现有方法难以在利用和保守之间进行有效权衡,尤其是在数据分布外的情况下。
核心思路:LRT-Diffusion的核心思路是将扩散模型的去噪过程视为一个序列假设检验问题。在每个去噪步骤中,它评估当前状态是来自无条件先验分布还是状态条件策略分布。通过累积对数似然比(Log-Likelihood Ratio, LRT),可以量化证据支持状态条件策略的程度。然后,使用一个logistic控制器,根据累积的LRT值来调整条件均值,从而实现风险感知的引导。
技术框架:LRT-Diffusion的整体框架基于DDPM(Denoising Diffusion Probabilistic Models)。训练阶段保持不变,使用标准的epsilon预测和双头结构。在推理阶段,LRT引导模块被添加到扩散模型的采样过程中。该模块计算每个去噪步骤的LRT值,并使用logistic控制器来门控条件均值。此外,该框架还支持与Q梯度结合,允许在无条件均值、LRT门控均值或两者的混合处进行critic梯度更新,从而实现利用和保守之间的灵活权衡。
关键创新:LRT-Diffusion的关键创新在于引入了基于假设检验的风险感知采样引导方法。与传统的启发式引导方法不同,LRT-Diffusion提供了一种统计上合理的风险控制机制,允许用户指定可接受的I类错误水平(alpha)。此外,LRT-Diffusion能够自然地与Q梯度结合,从而在利用和保守之间实现更精细的控制。
关键设计:LRT-Diffusion的关键设计包括:1) 使用对数似然比作为证据度量,量化状态条件策略的置信度;2) 使用logistic控制器门控条件均值,根据LRT值调整引导强度;3) 在H0下校准logistic控制器的阈值tau,以满足用户指定的I类错误水平alpha;4) 标准化状态和动作,以提高模型的泛化能力;5) 提供状态条件下的分布外(OOD)指标,用于评估策略在未知状态下的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LRT-Diffusion在D4RL MuJoCo任务上显著提升了回报-OOD权衡。具体而言,LRT-Diffusion在满足用户指定的alpha水平的同时,实现了比Q引导基线更高的回报,并且在OOD状态下的表现也更加稳定。理论分析表明,LRT-Diffusion具有alpha水平校准和简洁的稳定性界限,并且在非支持错误占主导地位时,LRT-Diffusion的表现优于Q引导。
🎯 应用场景
LRT-Diffusion具有广泛的应用前景,尤其适用于对安全性要求较高的离线强化学习任务,例如自动驾驶、医疗决策和金融交易。通过校准的风险控制,LRT-Diffusion可以帮助策略避免在未知状态下采取危险或不合理的行动,从而提高系统的可靠性和安全性。此外,该方法还可以用于探索更保守的策略,以应对不确定性较高的环境。
📄 摘要(原文)
Diffusion policies are competitive for offline reinforcement learning (RL) but are typically guided at sampling time by heuristics that lack a statistical notion of risk. We introduce LRT-Diffusion, a risk-aware sampling rule that treats each denoising step as a sequential hypothesis test between the unconditional prior and the state-conditional policy head. Concretely, we accumulate a log-likelihood ratio and gate the conditional mean with a logistic controller whose threshold tau is calibrated once under H0 to meet a user-specified Type-I level alpha. This turns guidance from a fixed push into an evidence-driven adjustment with a user-interpretable risk budget. Importantly, we deliberately leave training vanilla (two heads with standard epsilon-prediction) under the structure of DDPM. LRT guidance composes naturally with Q-gradients: critic-gradient updates can be taken at the unconditional mean, at the LRT-gated mean, or a blend, exposing a continuum from exploitation to conservatism. We standardize states and actions consistently at train and test time and report a state-conditional out-of-distribution (OOD) metric alongside return. On D4RL MuJoCo tasks, LRT-Diffusion improves the return-OOD trade-off over strong Q-guided baselines in our implementation while honoring the desired alpha. Theoretically, we establish level-alpha calibration, concise stability bounds, and a return comparison showing when LRT surpasses Q-guidance-especially when off-support errors dominate. Overall, LRT-Diffusion is a drop-in, inference-time method that adds principled, calibrated risk control to diffusion policies for offline RL.