Test-time Offline Reinforcement Learning on Goal-related Experience

📄 arXiv: 2507.18809v1 📥 PDF

作者: Marco Bagatella, Mert Albaba, Jonas Hübotter, Georg Martius, Andreas Krause

分类: cs.LG

发布日期: 2025-07-24


💡 一句话要点

提出基于目标相关经验的测试时离线强化学习方法,提升泛化性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 离线强化学习 测试时训练 目标条件强化学习 数据选择 泛化能力

📋 核心要点

  1. 现有离线强化学习方法在泛化到新目标时存在挑战,尤其是在高维复杂任务中。
  2. 论文提出一种目标条件测试时训练(GC-TTT)方法,利用与当前目标相关的离线数据进行策略微调。
  3. 实验表明,GC-TTT 在多种任务中显著提升了性能,且计算成本低于扩大模型规模。

📝 摘要(中文)

本文研究了离线强化学习中,如何利用与测试目标相关的经验在测试时提升策略性能。借鉴了预训练模型在测试时微调的思想,作者发现基于与当前目标相关的经验进行测试时离线强化学习,能够以极低的计算成本显著提升策略性能。为此,作者提出了一种新颖的自监督数据选择准则,该准则根据离线数据集中状态与当前评估目标的相关性以及质量来选择转移样本。实验结果表明,在各种高维loco-navigation和操作任务中,通过在所选数据上对策略进行少量梯度步的微调,可以获得比标准离线预训练显著的性能提升。作者提出的目标条件测试时训练(GC-TTT)算法在评估期间以递减视界的方式应用此例程,从而使策略适应当前轨迹。最后,作者研究了推理时的计算分配,表明在可比的成本下,GC-TTT 能够带来通过扩展模型大小无法实现的性能提升。

🔬 方法详解

问题定义:离线强化学习旨在利用预先收集好的数据集训练策略,使其能够泛化到新的目标。然而,在高维、复杂的任务中,离线训练的策略往往难以适应测试时遇到的特定目标,导致性能下降。现有的方法通常依赖于扩大模型规模或增加离线数据集的大小,但这会带来巨大的计算成本。

核心思路:论文的核心思路是借鉴预训练模型在测试时微调的思想,即利用与当前测试目标相关的经验来优化策略。通过选择与当前状态和目标相关的离线数据,并在测试时进行少量梯度更新,可以使策略快速适应新目标,从而提高泛化性能。

技术框架:GC-TTT算法主要包含以下几个阶段:1) 离线数据收集:收集包含各种状态、动作和奖励的离线数据集。2) 策略预训练:使用离线数据集预训练一个目标条件策略。3) 数据选择:在测试时,根据当前状态和目标,使用自监督数据选择准则从离线数据集中选择相关的转移样本。4) 策略微调:使用选择的转移样本对预训练的策略进行少量梯度更新,使其适应当前目标。5) 递减视界应用:在评估期间,以递减视界的方式重复数据选择和策略微调,使策略能够适应当前轨迹。

关键创新:论文最重要的技术创新点在于提出了自监督数据选择准则,该准则能够有效地从离线数据集中选择与当前状态和目标相关的转移样本。与传统的基于相似性的数据选择方法不同,该准则同时考虑了状态与目标的相关性以及转移样本的质量,从而能够选择更有助于策略优化的数据。

关键设计:自监督数据选择准则包含两个部分:1) 相关性评估:使用目标条件价值函数来评估状态与目标的相关性。2) 质量评估:使用TD误差来评估转移样本的质量。最终的数据选择概率是相关性和质量的加权平均。此外,策略微调阶段使用了较小的学习率和较少的梯度更新步数,以避免过拟合到选择的数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GC-TTT 在各种高维 loco-navigation 和操作任务中,通过在所选数据上对策略进行少量梯度步的微调,可以获得比标准离线预训练显著的性能提升。例如,在某项操作任务中,GC-TTT 算法的成功率比基线方法提高了 20% 以上,并且计算成本远低于扩大模型规模的方法。

🎯 应用场景

该研究成果可应用于机器人导航、操作等领域,尤其是在需要快速适应新环境和目标的场景中。例如,在仓库机器人中,可以利用GC-TTT算法使机器人能够快速适应新的货物摆放方式和目标位置。此外,该方法还可以应用于自动驾驶、游戏AI等领域,提高智能体的泛化能力和适应性。

📄 摘要(原文)

Foundation models compress a large amount of information in a single, large neural network, which can then be queried for individual tasks. There are strong parallels between this widespread framework and offline goal-conditioned reinforcement learning algorithms: a universal value function is trained on a large number of goals, and the policy is evaluated on a single goal in each test episode. Extensive research in foundation models has shown that performance can be substantially improved through test-time training, specializing the model to the current goal. We find similarly that test-time offline reinforcement learning on experience related to the test goal can lead to substantially better policies at minimal compute costs. We propose a novel self-supervised data selection criterion, which selects transitions from an offline dataset according to their relevance to the current state and quality with respect to the evaluation goal. We demonstrate across a wide range of high-dimensional loco-navigation and manipulation tasks that fine-tuning a policy on the selected data for a few gradient steps leads to significant performance gains over standard offline pre-training. Our goal-conditioned test-time training (GC-TTT) algorithm applies this routine in a receding-horizon fashion during evaluation, adapting the policy to the current trajectory as it is being rolled out. Finally, we study compute allocation at inference, demonstrating that, at comparable costs, GC-TTT induces performance gains that are not achievable by scaling model size.