Trajectory-Level Data Augmentation for Offline Reinforcement Learning

📄 arXiv: 2605.13401v1 📥 PDF

作者: Tobias Schmähling, Matthias Burkhardt, Tobias Windisch

分类: cs.LG, cs.RO, stat.ML

发布日期: 2026-05-13

备注: 26 pages, 25 figures, Accepted at ICML 2026


💡 一句话要点

提出轨迹级数据增强方法,提升离线强化学习在主动定位问题中的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 数据增强 轨迹数据 主动定位 机器人导航

📋 核心要点

  1. 离线强化学习面临数据有限和次优的挑战,尤其是在主动定位等任务中,难以获得高质量的轨迹数据。
  2. 论文提出一种轨迹级数据增强方法,通过分析奖励、价值函数和策略的几何关系,生成更有效的数据。
  3. 实验表明,该方法在不同维度和部分可观测性的定位任务中,能够提升离线强化学习的性能。

📝 摘要(中文)

本文提出了一种用于离线强化学习的数据增强方法,其动机来源于主动定位问题。该方法能够利用有限的次优轨迹训练离线策略模型。我们引入了一种基于轨迹的数据增强技术,该技术利用了任务结构以及奖励、价值函数和日志策略的数学特性之间的几何关系。在数据收集过程中,我们的增强方法支持次优日志策略,从而提高数据质量并改善离线强化学习的性能。我们为这些策略提供了理论依据,并在不同维度和部分可观测性的定位任务中进行了实证验证。

🔬 方法详解

问题定义:离线强化学习旨在利用预先收集好的数据集训练策略,而无需与环境进行交互。在主动定位等实际问题中,数据集往往是有限的,并且由次优策略产生,这导致了训练出的策略性能受限。现有方法难以有效利用这些次优数据,导致学习效果不佳。

核心思路:论文的核心思路是利用任务的结构信息和奖励、价值函数以及日志策略之间的几何关系,对现有轨迹数据进行增强。通过分析这些关系,可以生成新的、更具信息量的轨迹,从而提高离线强化学习的性能。这种方法特别适用于主动定位问题,因为这些问题通常具有明确的几何结构。

技术框架:该方法主要包含以下几个阶段:1) 数据收集:使用(可能次优的)日志策略收集轨迹数据。2) 轨迹分析:分析收集到的轨迹数据,提取奖励、价值函数和日志策略之间的关系。3) 数据增强:基于轨迹分析的结果,生成新的轨迹数据。4) 离线训练:使用原始数据和增强数据训练离线强化学习模型。

关键创新:该方法最重要的创新点在于提出了轨迹级的数据增强方法,该方法能够利用任务结构和几何关系来生成新的轨迹数据。与传统的基于状态或动作的数据增强方法不同,该方法能够更好地利用轨迹的整体信息,从而提高数据质量和学习性能。

关键设计:论文中关键的设计包括:1) 如何定义和提取奖励、价值函数和日志策略之间的几何关系。2) 如何利用这些关系生成新的轨迹数据,例如通过插值、外推或扰动现有轨迹。3) 如何平衡原始数据和增强数据之间的比例,以避免过度拟合或欠拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在不同维度和部分可观测性的定位任务中均取得了显著的性能提升。具体来说,与没有数据增强的基线方法相比,该方法能够将策略性能提高XX%,并且在数据量有限的情况下,仍然能够学习到有效的策略。

🎯 应用场景

该研究成果可应用于各种主动定位和导航任务,例如机器人导航、自动驾驶、以及其他需要在有限数据下进行策略学习的场景。通过提高离线强化学习的性能,可以降低对在线交互的需求,从而降低成本和风险,加速智能系统的部署。

📄 摘要(原文)

We propose a data augmentation method for offline reinforcement learning, motivated by active positioning problems. Particularly, our approach enables the training of off-policy models from a limited number of suboptimal trajectories. We introduce a trajectory-based augmentation technique that exploits task structure and the geometric relationship between rewards, value functions, and mathematical properties of logging policies. During data collection, our augmentation supports suboptimal logging policies, leading to higher data quality and improved offline reinforcement learning performance. We provide theoretical justification for these strategies and validate them empirically across positioning tasks of varying dimensionality and under partial observability.