Good Actions Succeed, Bad Actions Generalize: A Case Study on Why RL Generalizes Better

📄 arXiv: 2503.15693v1 📥 PDF

作者: Meng Song

分类: cs.LG

发布日期: 2025-03-19


💡 一句话要点

对比监督学习与强化学习在视觉导航中的泛化能力,揭示强化学习更优泛化的内在机制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 监督学习 零样本泛化 视觉导航 经验拼接

📋 核心要点

  1. 监督学习和强化学习在训练通用智能体方面应用广泛,但二者在泛化能力上的差异和内在机制尚不明确。
  2. 该研究对比了行为克隆(BC)和近端策略优化(PPO)在Habitat视觉导航任务中的零样本泛化性能,揭示了二者泛化机制的差异。
  3. 实验结果表明,PPO在成功率和SPL指标上均优于BC,即使BC拥有更多最优数据,成功率仍显著低于PPO。

📝 摘要(中文)

监督学习(SL)和强化学习(RL)都被广泛用于训练复杂任务的通用智能体,但它们在零样本泛化方面的能力和潜在机制尚未被完全理解。本文对SL和RL在零样本泛化方面进行了直接比较。以Habitat视觉导航任务为测试平台,我们评估了近端策略优化(PPO)和行为克隆(BC)智能体在两个泛化层面的表现:已见环境中的状态-目标对泛化和未见环境的泛化。实验表明,PPO在所有零样本设置和性能指标(成功率和SPL)上始终优于BC。有趣的是,即使额外的最优训练数据使BC在SPL方面与PPO的零样本性能相匹配,但在成功率方面仍然显著落后。我们将其归因于这些算法训练的模型泛化的根本差异:BC训练的模型通过模仿成功的轨迹进行泛化,而基于TD的RL训练的模型通过组合经验拼接进行泛化——利用过去轨迹的片段(主要是失败的片段)来构建新任务的解决方案。这使得RL能够有效地在广阔的状态空间中找到解决方案,并发现超出人类知识范围的新策略。除了提供经验证据和理解之外,我们还为通过算法设计提高RL和SL的泛化能力提出了实用的指导方针。

🔬 方法详解

问题定义:论文旨在解决强化学习和监督学习在零样本视觉导航任务中的泛化能力差异问题。现有方法,如行为克隆,虽然可以模仿专家策略,但在未见过的环境中泛化能力较弱,难以应对复杂和变化的环境。其痛点在于无法有效利用失败经验,且容易陷入局部最优解。

核心思路:论文的核心思路是揭示基于TD学习的强化学习算法(如PPO)通过组合经验拼接(combinatorial experience stitching)实现更好的泛化。与模仿成功轨迹的监督学习不同,强化学习能够利用过去轨迹的片段,包括失败的片段,来构建新任务的解决方案。这种方式允许智能体在更大的状态空间中探索,并发现新的策略。

技术框架:该研究使用Habitat视觉导航环境作为测试平台,对比了PPO和BC两种算法的性能。PPO是一种基于策略梯度的强化学习算法,通过优化策略来最大化累积奖励。BC是一种监督学习算法,通过模仿专家轨迹来学习策略。实验评估了两种算法在已见环境和未见环境中的零样本泛化能力,并使用成功率和SPL(Success weighted by Path Length)作为评估指标。

关键创新:论文的关键创新在于揭示了强化学习算法通过组合经验拼接实现泛化的机制。与监督学习依赖成功轨迹不同,强化学习能够利用失败经验,将不同轨迹的片段组合起来,从而找到新的解决方案。这种机制使得强化学习在复杂环境中具有更强的泛化能力。

关键设计:论文的关键设计包括:1) 使用Habitat视觉导航环境,提供了一个逼真的三维环境用于训练和测试;2) 对比了PPO和BC两种具有代表性的强化学习和监督学习算法;3) 使用成功率和SPL两种指标,全面评估了智能体的性能;4) 通过实验验证了强化学习算法在零样本泛化方面的优势。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在Habitat视觉导航任务中,PPO在零样本泛化性能上始终优于BC,尤其是在成功率方面。即使BC通过增加最优训练数据在SPL指标上追平PPO,其成功率仍然显著落后。这验证了强化学习通过组合经验拼接实现泛化的优势。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、游戏AI等领域。通过理解强化学习泛化能力更强的内在机制,可以设计更有效的强化学习算法,提升智能体在复杂环境中的适应性和鲁棒性。未来,该研究可以扩展到其他任务和环境,进一步探索强化学习的泛化能力。

📄 摘要(原文)

Supervised learning (SL) and reinforcement learning (RL) are both widely used to train general-purpose agents for complex tasks, yet their generalization capabilities and underlying mechanisms are not yet fully understood. In this paper, we provide a direct comparison between SL and RL in terms of zero-shot generalization. Using the Habitat visual navigation task as a testbed, we evaluate Proximal Policy Optimization (PPO) and Behavior Cloning (BC) agents across two levels of generalization: state-goal pair generalization within seen environments and generalization to unseen environments. Our experiments show that PPO consistently outperforms BC across both zero-shot settings and performance metrics-success rate and SPL. Interestingly, even though additional optimal training data enables BC to match PPO's zero-shot performance in SPL, it still falls significantly behind in success rate. We attribute this to a fundamental difference in how models trained by these algorithms generalize: BC-trained models generalize by imitating successful trajectories, whereas TD-based RL-trained models generalize through combinatorial experience stitching-leveraging fragments of past trajectories (mostly failed ones) to construct solutions for new tasks. This allows RL to efficiently find solutions in vast state space and discover novel strategies beyond the scope of human knowledge. Besides providing empirical evidence and understanding, we also propose practical guidelines for improving the generalization capabilities of RL and SL through algorithm design.