Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning

📄 arXiv: 2405.03878v2 📥 PDF

作者: Aditya A. Ramesh, Kenny Young, Louis Kirsch, Jürgen Schmidhuber

分类: cs.LG, cs.AI

发布日期: 2024-05-06 (更新: 2024-06-04)

备注: ICML 2024 version


💡 一句话要点

提出Chunked-TD算法,加速强化学习中的信用分配

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 信用分配 时序差分学习 模型预测 历史压缩

📋 核心要点

  1. 强化学习中,延迟和随机性导致信用分配困难,传统TD($λ$)方法需手动调整λ值。
  2. Chunked-TD利用预测转移概率计算λ-return目标,通过分块压缩轨迹加速信用分配。
  3. Chunked-TD算法可在线实现,实验证明其在某些问题上优于传统TD($λ$)。

📝 摘要(中文)

强化学习中,由于延迟和随机结果,时间信用分配极具挑战性。蒙特卡洛目标可以弥合行动和结果之间的长延迟,但由于随机性导致高方差。时序差分(TD)学习使用自举来克服方差,但引入了偏差,只能通过多次迭代来纠正。TD($λ$)提供了一种平滑地调整这种偏差-方差权衡的机制。适当选择$λ$可以显著提高性能。本文提出了Chunked-TD,它使用模型预测的转移概率来计算$λ$-return目标。与其他基于模型的信用分配解决方案不同,Chunked-TD不易受模型不准确的影响。我们的方法受到历史压缩原则的启发,并为传统TD学习“分块”轨迹。通过学习的世界模型进行分块,可以压缩环境-策略交互的近确定性区域,从而加速信用分配,同时在必要时仍进行自举。我们提出了可以在线实现的算法,并表明它们比传统的TD($λ$)更快地解决一些问题。

🔬 方法详解

问题定义:强化学习中的信用分配问题,尤其是在具有长延迟和随机性的环境中,是一个核心挑战。传统的TD($λ$)方法需要手动调整λ值,以平衡偏差和方差,这通常需要大量的实验和领域知识。此外,基于模型的信用分配方法容易受到模型不准确的影响,导致性能下降。

核心思路:Chunked-TD的核心思路是利用学习到的世界模型,将环境-策略交互的轨迹进行分块。对于近确定性的区域,通过模型预测进行压缩,从而加速信用分配;对于不确定性较高的区域,则仍然采用自举的方式进行学习。这种方法旨在结合基于模型的快速学习和TD学习的鲁棒性。

技术框架:Chunked-TD算法主要包含以下几个阶段:1) 使用学习到的世界模型预测状态转移概率;2) 基于预测的转移概率,将轨迹划分为“chunks”,每个chunk代表一段近确定性的状态序列;3) 对于每个chunk,计算λ-return目标,其中λ的值取决于chunk的确定性程度;4) 使用计算得到的λ-return目标更新策略。该算法可以以在线方式实现,即在与环境交互的同时进行模型学习和策略更新。

关键创新:Chunked-TD的关键创新在于其动态地调整λ值,并根据环境的确定性程度进行分块。与传统的TD($λ$)相比,Chunked-TD不需要手动调整λ,而是通过学习到的世界模型自动确定。与其他的基于模型的信用分配方法相比,Chunked-TD对模型的不准确性具有更强的鲁棒性,因为它在不确定性较高的区域仍然采用自举的方式进行学习。

关键设计:Chunked-TD算法的关键设计包括:1) 如何学习世界模型,可以使用各种模型学习方法,例如神经网络;2) 如何确定chunk的边界,可以使用基于转移概率的阈值方法;3) 如何计算λ-return目标,可以使用传统的TD($λ$)公式,但λ的值由chunk的确定性程度决定。损失函数通常采用均方误差损失,用于最小化预测的λ-return目标与实际回报之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文表明,Chunked-TD算法在某些问题上比传统的TD($λ$)算法收敛速度更快。具体性能数据未知,但论文强调该算法在信用分配方面具有显著优势,尤其是在环境模型不完全准确的情况下。

🎯 应用场景

Chunked-TD算法可应用于各种强化学习任务,尤其是在具有稀疏奖励和长延迟的环境中。例如,机器人导航、游戏AI、资源管理等领域。该算法能够加速学习过程,提高智能体的性能,并降低对环境模型的依赖。

📄 摘要(原文)

Temporal credit assignment in reinforcement learning is challenging due to delayed and stochastic outcomes. Monte Carlo targets can bridge long delays between action and consequence but lead to high-variance targets due to stochasticity. Temporal difference (TD) learning uses bootstrapping to overcome variance but introduces a bias that can only be corrected through many iterations. TD($λ$) provides a mechanism to navigate this bias-variance tradeoff smoothly. Appropriately selecting $λ$ can significantly improve performance. Here, we propose Chunked-TD, which uses predicted probabilities of transitions from a model for computing $λ$-return targets. Unlike other model-based solutions to credit assignment, Chunked-TD is less vulnerable to model inaccuracies. Our approach is motivated by the principle of history compression and 'chunks' trajectories for conventional TD learning. Chunking with learned world models compresses near-deterministic regions of the environment-policy interaction to speed up credit assignment while still bootstrapping when necessary. We propose algorithms that can be implemented online and show that they solve some problems much faster than conventional TD($λ$).