Offline Policy Optimization with Posterior Sampling
作者: Hongqiang Lin, Dongxu Zhang, Yiding Sun, Mingzhe Li, Ning Yang, Haijun Zhang
分类: cs.AI
发布日期: 2026-05-08
备注: 25 pages, 3 figures
💡 一句话要点
提出基于后验采样的离线策略优化方法(PSPO),平衡模型泛化与鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 贝叶斯推理 后验采样 策略优化 模型利用 分布外泛化
📋 核心要点
- 现有离线强化学习方法常通过过度悲观的正则化来规避OOD区域的模型利用风险,导致模型泛化能力受限。
- PSPO将动态建模转化为贝叶斯推理,利用后验采样显式量化模型置信度,在保持鲁棒性的同时有效利用OOD数据。
- 实验表明,PSPO在标准基准测试中表现优于现有SOTA方法,且理论上保证了策略优化的单调改进与收敛性。
📝 摘要(中文)
基于模型的离线强化学习面临泛化能力与分布外(OOD)区域模型利用风险之间的权衡挑战。虽然OOD样本可能包含有效的物理动态,但也会引入模型利用风险。现有方法通常采用过度悲观的正则化手段,在确保鲁棒性的同时往往牺牲了泛化性能。为此,本文提出了基于后验采样的策略优化(PSPO)方法,将动态建模表述为贝叶斯推理过程,通过后验分布显式量化模型置信度。通过整合后验采样与约束策略优化,该方法在利用动态一致的OOD转换以增强泛化的同时,确保了对模型利用风险的鲁棒性。理论上,本文将后验采样下的Q值估计表述为随机近似问题并证明了其收敛性,同时证明了策略优化过程的单调改进性质。在标准基准测试上的实验结果表明,PSPO优于当前主流的离线强化学习方法。
🔬 方法详解
问题定义:离线强化学习中,模型在OOD区域的预测不确定性极易导致“模型利用”(Model Exploitation),即策略利用模型预测的虚假高回报区域。现有方法多采用保守的惩罚机制,导致泛化性能不足。
核心思路:引入贝叶斯视角,通过后验采样(Posterior Sampling)量化模型的不确定性。将动态建模视为从后验分布中采样,从而区分哪些OOD区域是“物理一致”的(可利用),哪些是“模型误差”导致的(需规避)。
技术框架:该框架包含两个核心模块:一是基于贝叶斯推理的动态模型,用于生成后验分布;二是约束策略优化模块,通过将策略更新分解为一系列受约束的子问题,利用后验采样得到的动态模型进行策略迭代。
关键创新:将动态建模与后验采样结合,实现了对模型置信度的显式量化。与传统确定性模型或集成模型(Ensemble)相比,该方法能更精细地平衡探索与利用,避免了对OOD区域的盲目排斥。
关键设计:采用随机近似方法处理Q值估计,通过约束策略优化确保策略更新的单调性。在损失函数设计上,通过后验采样动态调整策略更新的约束边界,从而在保证鲁棒性的前提下最大化策略性能。
🖼️ 关键图片
📊 实验亮点
PSPO在多个标准离线强化学习基准测试(如D4RL)中进行了验证。实验结果显示,该方法在处理具有挑战性的OOD场景时,显著优于现有的保守策略优化(如CQL、IQL等)基线。通过后验采样机制,PSPO在保持高鲁棒性的同时,实现了更优的累积奖励,证明了其在平衡泛化与利用方面的显著优势。
🎯 应用场景
该方法适用于数据获取成本高昂、环境动态复杂且难以进行在线交互的领域,如自动驾驶决策规划、机器人复杂操作控制、工业过程优化及医疗决策支持。其核心价值在于能在有限的离线数据集上,通过更优的泛化能力提升策略在真实物理环境中的部署效果。
📄 摘要(原文)
A fundamental challenge in model-based offline reinforcement learning (RL) lies in the trade-off between generalization and robustness against exploitation errors in out-of-distribution (OOD) regions. While OOD samples may capture valid underlying physical dynamics, they also introduce the risk of model exploitation. Existing methods typically address this risk through excessive pessimistic regularization, which ensures robustness but often sacrifices generalization. To overcome this limitation, we propose Posterior Sampling-based Policy Optimization (PSPO), which formulates dynamics modeling as a Bayesian inference process to derive a posterior that explicitly quantifies model fidelity. Through the integration of posterior sampling and constrained policy optimization, our method leverages dynamics-consistent OOD transitions for generalization while ensuring robustness against model exploitation. Theoretically, we formulate Q-value estimation under posterior sampling as a stochastic approximation problem and establish its convergence. We decompose policy optimization into a sequence of constrained subproblems, demonstrating that solving these subproblems guarantees monotonic improvement until convergence. Experiments on standard benchmarks validate that PSPO achieves superior performance compared to state-of-the-art baselines.