Efficient and Uncertainty-Aware Diffusion Framework for Offline-to-Online Reinforcement Learning

📄 arXiv: 2605.30776v1 📥 PDF

作者: Ha Manh Bui, Metod Jazbec, Eric Nalisnick, Anqi Liu

分类: cs.LG

发布日期: 2026-05-29

备注: International Conference on Machine Learning, 2026


💡 一句话要点

DUAL:高效且具有不确定性感知的扩散框架,用于离线到在线强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 在线强化学习 扩散模型 不确定性量化 分布偏移 策略学习 拉普拉斯近似

📋 核心要点

  1. O2O-RL面临离线到在线分布偏移的挑战,影响策略性能。
  2. DUAL框架利用扩散模型先验知识,提炼快速actor策略和转移模型,并量化不确定性。
  3. 实验结果表明,DUAL在多个环境和设置下,显著提升了在线预期回报。

📝 摘要(中文)

离线到在线强化学习(O2O-RL)利用离线预训练策略来减少昂贵的在线交互。尽管具有数据效率,O2O-RL容易受到离线和在线分布之间偏移的影响。现有工作旨在通过在从扩散模型采样的轨迹数据上微调策略来减轻这种偏移的危害。受此启发,我们提出了DUAL:一个高效的 extbf{D}iffusion extbf{U}ncertainty- extbf{A}ware框架,用于离线到在线强化 extbf{L}earning。DUAL利用扩散模型的先验知识,在离线阶段提炼出一个快速采样的扩散actor策略和转移模型。DUAL还采用了拉普拉斯近似和距离转移-状态-偏移检测,从而利用不确定性量化来改善在线阶段的探索与利用。我们正式证明了带有拉普拉斯近似的actor损失为认知不确定性的原则性估计提供了代理。在多个设置和环境中,DUAL在O2O-RL基线上提高了在线预期回报。

🔬 方法详解

问题定义:离线到在线强化学习旨在利用离线数据预训练的策略,减少在线交互成本。然而,离线和在线数据分布的差异会导致策略性能下降,即分布偏移问题。现有方法通常通过微调策略来缓解此问题,但效率和探索能力仍有提升空间。

核心思路:DUAL的核心在于利用扩散模型的强大生成能力和不确定性量化,更有效地进行策略学习和探索。通过离线阶段的知识提炼,获得快速采样的扩散actor策略和转移模型,并在在线阶段利用不确定性指导探索,从而在探索和利用之间取得平衡。

技术框架:DUAL框架包含离线和在线两个阶段。离线阶段,首先利用离线数据训练扩散模型,然后从中提炼出快速采样的actor策略和转移模型。在线阶段,利用拉普拉斯近似估计认知不确定性,并结合距离转移-状态-偏移检测,指导策略的探索和利用。

关键创新:DUAL的关键创新在于将扩散模型的不确定性量化与O2O-RL相结合。具体来说,通过拉普拉斯近似,为actor损失提供了一个认知不确定性的代理估计,从而能够更有效地指导在线探索。此外,距离转移-状态-偏移检测进一步提升了对分布偏移的感知能力。

关键设计:DUAL使用扩散模型作为策略的先验知识,并采用蒸馏技术加速采样过程。拉普拉斯近似被用于估计策略的认知不确定性,并将其融入到actor损失中。距离转移-状态-偏移检测则通过计算状态转移的距离来判断分布偏移的程度,并调整探索策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DUAL在多个O2O-RL基线上实现了显著的性能提升。具体来说,在各种模拟环境中,DUAL的在线预期回报明显高于其他基线方法,证明了其在处理分布偏移和有效探索方面的优势。实验还验证了拉普拉斯近似和距离转移-状态-偏移检测在提升性能方面的有效性。

🎯 应用场景

DUAL框架适用于需要从离线数据中学习策略,并在实际环境中进行在线优化的各种机器人和控制任务。例如,它可以应用于自动驾驶、机器人导航、游戏AI等领域,降低在线探索成本,提高策略学习效率和鲁棒性。该方法在数据收集成本高昂或环境交互风险较高的场景中具有重要价值。

📄 摘要(原文)

Offline-to-Online Reinforcement Learning (O2O-RL) leverages an offline, pre-trained policy to minimize costly online interactions. Although data-efficient, O2O-RL is susceptible to shifts between offline and online distributions. Existing work aims to mitigate the harm of this shift by finetuning the policy on trajectory data sampled from a diffusion model. Inspired by this line of work, we propose DUAL: an efficient \textbf{D}iffusion \textbf{U}ncertainty-\textbf{A}ware framework for offline-to-online reinforcement \textbf{L}earning. DUAL utilizes the prior knowledge of the diffusion model to distill a fast-sampling diffusion actor policy and transition model in the offline phase. DUAL also employs a Laplace approximation and distance transition-state-shift detection, thereby using uncertainty quantification to improve exploration versus exploitation in the online phase. We formally show that our actor loss with the Laplace approximation provides a proxy for a principled estimate of epistemic uncertainty. Empirically, DUAL improves the online expected return over O2O-RL baselines across multiple settings and environments.