Random Policy Enables In-Context Reinforcement Learning within Trust Horizons

📄 arXiv: 2410.19982v3 📥 PDF

作者: Weiqin Chen, Santiago Paternain

分类: cs.LG, cs.AI

发布日期: 2024-10-25 (更新: 2025-05-02)


💡 一句话要点

提出State-Action Distillation (SAD),实现基于随机策略的上下文强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文强化学习 随机策略 预训练 数据蒸馏 Transformer 离线强化学习 在线强化学习

📋 核心要点

  1. 现有ICRL算法依赖于高质量的预训练数据,需要最优或良好训练的策略,这限制了其在实际场景中的应用。
  2. State-Action Distillation (SAD) 仅使用随机策略生成预训练数据,通过在信任范围内提取优秀状态-动作对来指导学习。
  3. 实验结果表明,SAD在离线和在线评估中均显著优于现有基线,分别提升了236.3%和135.2%。

📝 摘要(中文)

预训练的通用模型展现了卓越的上下文学习能力,能够零样本泛化到预训练期间未遇到的新任务。在强化学习(RL)领域,当以自回归监督方式在决策问题上预训练通用模型时,会涌现上下文强化学习(ICRL)。然而,当前最先进的ICRL算法,如算法蒸馏、决策预训练Transformer和决策重要性Transformer,对预训练数据集提出了严格的要求,包括源策略、上下文信息和动作标签。这些算法要么需要最优策略,要么需要各种程度的良好行为策略用于所有预训练环境。这极大地阻碍了ICRL在现实世界场景中的应用,因为为大量现实世界训练环境获取最优或良好训练的策略是难以实现的。为了克服这一挑战,我们引入了一种名为State-Action Distillation(SAD)的新方法,该方法允许仅通过随机策略指导生成有效的预训练数据集。具体而言,SAD通过在信任范围内使用随机策略,从整个状态和动作空间中提取出色的状态-动作对,从而选择查询状态和相应的动作标签,然后在预训练期间继承经典的自回归监督机制。据我们所知,这是第一个在随机策略和随机上下文下实现有效ICRL的工作。我们还建立了SAD的可信度以及性能保证的定量分析。此外,我们在多个流行的ICRL基准环境中的经验结果表明,在离线评估中,SAD平均优于最佳基线236.3%,在线评估中优于最佳基线135.2%。

🔬 方法详解

问题定义:现有ICRL方法需要高质量的预训练数据,特别是需要从最优或经过良好训练的策略中收集数据。然而,在许多实际场景中,获取大量环境的最优或良好策略是不可行的。因此,如何在仅有随机策略的情况下进行有效的ICRL是一个关键问题。

核心思路:SAD的核心思想是利用随机策略在有限的“信任范围”内探索环境,并从中提取有价值的状态-动作对。即使是随机策略,在某些状态下也可能采取相对较好的动作。通过选择这些“优秀”的状态-动作对,可以构建一个有效的预训练数据集,用于后续的ICRL。

技术框架:SAD包含两个主要阶段:数据蒸馏阶段和预训练阶段。在数据蒸馏阶段,使用随机策略在环境中进行探索,并记录状态-动作对。然后,根据某种指标(例如,Q值估计)选择“优秀”的状态-动作对,构建蒸馏数据集。在预训练阶段,使用经典的自回归监督学习方法,在蒸馏数据集上训练一个Transformer模型。该模型学习预测给定上下文(包括历史状态、动作和奖励)下的下一个动作。

关键创新:SAD最重要的创新在于它能够仅使用随机策略生成有效的预训练数据。这极大地降低了ICRL的准入门槛,使其能够应用于更广泛的实际场景。此外,SAD还提供了一种定量分析方法,用于评估随机策略的“信任度”,并为SAD的性能提供了理论保证。

关键设计:SAD的关键设计包括:1) 如何定义和计算“信任范围”;2) 如何选择“优秀”的状态-动作对。论文中使用了Q值估计作为选择标准,并提出了一种基于采样的Q值估计方法。此外,论文还详细描述了Transformer模型的结构和训练细节,包括损失函数、优化器和超参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAD在多个ICRL基准环境上进行了评估,结果表明,SAD在离线评估中平均优于最佳基线236.3%,在线评估中优于最佳基线135.2%。这些结果表明,SAD能够有效地利用随机策略进行ICRL,并且具有很强的泛化能力。此外,论文还提供了SAD的理论分析,证明了其性能保证。

🎯 应用场景

SAD的潜在应用领域包括机器人控制、游戏AI、自动驾驶等。在这些领域中,获取大量高质量的训练数据往往非常困难。SAD通过利用随机策略,可以有效地解决数据稀缺问题,从而加速ICRL的应用。未来,SAD可以与其他技术(例如,模仿学习、元学习)相结合,进一步提高ICRL的性能和泛化能力。

📄 摘要(原文)

Pretrained foundation models have exhibited extraordinary in-context learning performance, allowing zero-shot generalization to new tasks not encountered during pretraining. In the case of reinforcement learning (RL), in-context RL (ICRL) emerges when pretraining FMs on decision-making problems in an autoregressive-supervised manner. Nevertheless, current state-of-the-art ICRL algorithms, like Algorithm Distillation, Decision Pretrained Transformer and Decision Importance Transformer, impose stringent requirements on the pretraining dataset concerning the source policies, context information, and action labels. Notably, these algorithms either demand optimal policies or require varying degrees of well-trained behavior policies for all pretraining environments. This significantly hinders the application of ICRL to real-world scenarios, where acquiring optimal or well-trained policies for a substantial volume of real-world training environments can be intractable. To overcome this challenge, we introduce a novel approach, termed State-Action Distillation (SAD), that allows to generate an effective pretraining dataset guided solely by random policies. In particular, SAD selects query states and corresponding action labels by distilling outstanding state-action pairs from the entire state and action spaces by using random policies within a trust horizon, and then inherits the classical autoregressive-supervised mechanism during pretraining. To the best of our knowledge, this is the first work that enables effective ICRL under random policies and random contexts. We also establish quantitative analysis of the trustworthiness as well as the performance guarantees of SAD. Moreover, our empirical results across multiple popular ICRL benchmark environments demonstrate that, on average, SAD outperforms the best baseline by 236.3% in the offline evaluation and by 135.2% in the online evaluation.