Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies

📄 arXiv: 2509.05735v1 📥 PDF

作者: Jiaqi Chen, Ji Shi, Cansu Sancaktar, Jonas Frey, Georg Martius

分类: cs.LG, cs.AI

发布日期: 2025-09-06

备注: Accepted at Reinforcement Learning Conference (RLC 2025); Code available at: https://github.com/swsychen/Offline_vs_Online_in_MBRL


💡 一句话要点

模型强化学习中离线与在线学习对比研究,揭示数据收集策略对性能的影响

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模型强化学习 离线学习 在线学习 数据收集策略 分布外状态

📋 核心要点

  1. 基于模型的强化学习依赖于高质量数据,但离线数据和在线数据对世界模型的影响尚不明确。
  2. 该研究对比了离线和在线数据收集策略,发现离线智能体由于分布外状态而性能下降。
  3. 通过引入额外的在线交互或探索数据,可以有效缓解离线智能体的性能退化问题。

📝 摘要(中文)

数据收集对于在基于模型的强化学习中学习鲁棒的世界模型至关重要。最常见的策略是在在线训练期间通过与环境交互来主动收集轨迹,或者在离线数据集上进行训练。乍一看,学习与任务无关的环境动态的性质使得世界模型成为有效离线训练的良好候选者。然而,在线与离线数据对世界模型以及由此产生的任务性能的影响尚未在文献中得到彻底研究。在这项工作中,我们研究了基于模型的设置中的这两种范例,在31种不同的环境中进行了实验。首先,我们展示了在线智能体优于离线智能体。我们确定了离线智能体性能下降背后的一个关键挑战:在测试时遇到分布外(Out-Of-Distribution)状态。这个问题出现的原因是,在没有在线智能体中的自我纠正机制的情况下,状态空间覆盖有限的离线数据集会导致智能体的想象和真实轨迹之间的不匹配,从而损害策略训练。我们证明,通过在固定或自适应的时间表中允许额外的在线交互,可以缓解这个问题,从而恢复有限交互数据的在线训练的性能。我们还展示了结合探索数据有助于减轻离线智能体的性能下降。根据我们的见解,我们建议在收集大型数据集时添加探索数据,因为目前的努力主要集中在专家数据上。

🔬 方法详解

问题定义:论文旨在研究在基于模型的强化学习中,离线数据和在线数据对世界模型学习以及最终任务性能的影响。现有方法主要依赖于在线交互或离线数据集,但缺乏对二者差异的深入分析,导致在实际应用中难以选择合适的数据收集策略。离线学习容易受到数据分布的限制,而在线学习则需要大量的环境交互。

核心思路:论文的核心思路是通过对比实验,揭示离线学习和在线学习在世界模型学习中的优劣势。特别关注离线学习中由于数据分布不匹配导致的性能下降问题,并提出通过引入额外的在线交互或探索数据来缓解该问题。

技术框架:该研究采用基于模型的强化学习框架,包括世界模型学习、策略学习和数据收集三个主要模块。通过在31个不同的环境中进行实验,对比了纯离线学习、纯在线学习以及混合学习策略的性能。混合学习策略包括固定比例的在线交互和自适应调整的在线交互。

关键创新:论文的关键创新在于揭示了离线学习中分布外状态是导致性能下降的主要原因,并提出了通过引入额外的在线交互或探索数据来缓解该问题。这种方法能够有效利用离线数据的同时,避免了完全依赖离线数据带来的局限性。

关键设计:论文设计了多种数据收集策略,包括纯离线数据、纯在线数据、固定比例的在线交互和自适应调整的在线交互。自适应调整的在线交互策略根据世界模型的不确定性来动态调整在线交互的比例。此外,论文还研究了探索数据对离线学习性能的影响。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在线智能体在31个环境中普遍优于离线智能体。离线智能体由于遇到分布外状态而性能下降,但通过引入少量在线交互或探索数据,可以显著提升其性能,甚至达到与在线智能体相当的水平。例如,在某些环境中,通过少量在线交互,离线智能体的性能提升了50%以上。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶等领域,尤其是在数据收集成本高昂或环境交互受限的场景下。通过结合离线数据和少量在线交互,可以有效提升智能体的学习效率和泛化能力。未来的研究可以进一步探索更高效的探索策略和自适应数据收集方法。

📄 摘要(原文)

Data collection is crucial for learning robust world models in model-based reinforcement learning. The most prevalent strategies are to actively collect trajectories by interacting with the environment during online training or training on offline datasets. At first glance, the nature of learning task-agnostic environment dynamics makes world models a good candidate for effective offline training. However, the effects of online vs. offline data on world models and thus on the resulting task performance have not been thoroughly studied in the literature. In this work, we investigate both paradigms in model-based settings, conducting experiments on 31 different environments. First, we showcase that online agents outperform their offline counterparts. We identify a key challenge behind performance degradation of offline agents: encountering Out-Of-Distribution states at test time. This issue arises because, without the self-correction mechanism in online agents, offline datasets with limited state space coverage induce a mismatch between the agent's imagination and real rollouts, compromising policy training. We demonstrate that this issue can be mitigated by allowing for additional online interactions in a fixed or adaptive schedule, restoring the performance of online training with limited interaction data. We also showcase that incorporating exploration data helps mitigate the performance degradation of offline agents. Based on our insights, we recommend adding exploration data when collecting large datasets, as current efforts predominantly focus on expert data alone.