Data Augmentation for Instruction Following Policies via Trajectory Segmentation

📄 arXiv: 2503.01871v1 📥 PDF

作者: Niklas Höpner, Ilaria Tiddi, Herke van Hoof

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-02-25


💡 一句话要点

提出基于轨迹分割的数据增强方法,提升指令跟随策略的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令跟随 数据增强 轨迹分割 模仿学习 半监督学习

📋 核心要点

  1. 指令跟随策略依赖大量指令-轨迹数据,但标注数据稀缺,限制了智能体的可扩展性。
  2. 提出Play Segmentation (PS)方法,从无标注轨迹中提取高质量的指令片段,用于数据增强。
  3. 实验表明,PS方法显著提升了指令跟随策略的性能,达到使用两倍标注数据的效果。

📝 摘要(中文)

指令型智能体在机器人或游戏中的可扩展性通常受到指令-轨迹配对数据的限制。然而,大量未标注的轨迹数据(包含各种智能体行为序列的“游戏轨迹”)通常是可用的。在半监督设置中,我们探索了从游戏轨迹中提取带标签片段的方法。目标是扩充少量已标注的指令-轨迹对数据集,以提高下游通过模仿学习训练的指令跟随策略的性能。假设片段长度变化不大,最近的视频分割方法可以有效地提取带标签的片段。为了解决片段长度的约束,我们提出了Play Segmentation (PS),这是一种概率模型,可以找到扩展子片段的最大似然分割,同时仅在单个指令片段上进行训练。在游戏环境和模拟机器人夹持器设置中的结果表明了分割的重要性;随机采样的片段会降低性能,而结合来自PS的带标签片段可以将策略性能提高到在两倍数量的带标签数据上训练的策略的水平。

🔬 方法详解

问题定义:论文旨在解决指令跟随策略训练中,标注数据不足的问题。现有方法要么依赖大量人工标注,成本高昂;要么直接使用未标注数据,效果不佳。特别是,直接从游戏轨迹中随机采样片段进行数据增强,往往会引入噪声,降低策略性能。

核心思路:论文的核心思路是从大量未标注的“游戏轨迹”中,通过轨迹分割的方法,自动提取与指令相关的轨迹片段,作为数据增强的来源。关键在于设计一种能够有效处理不同长度轨迹片段的分割算法,并保证分割后的片段与指令具有一致性。

技术框架:整体框架包含以下几个步骤:1) 收集少量已标注的指令-轨迹对数据;2) 收集大量未标注的“游戏轨迹”数据;3) 使用已标注数据训练Play Segmentation (PS)模型;4) 使用PS模型从游戏轨迹中提取带标签的片段;5) 将提取的片段与原始标注数据合并,作为增强后的数据集;6) 使用增强后的数据集训练指令跟随策略。

关键创新:论文的关键创新在于提出的Play Segmentation (PS)模型。PS模型是一种概率模型,它能够找到扩展子片段的最大似然分割。与传统的视频分割方法不同,PS模型不需要预先知道片段的长度,并且只需要在单个指令片段上进行训练。这使得PS模型能够更好地适应游戏轨迹中不同长度的片段。

关键设计:PS模型基于概率图模型,目标是最大化观测到的轨迹片段的似然概率。模型假设轨迹片段可以被分割成多个子片段,每个子片段对应一个指令。模型的关键在于定义子片段的似然函数,该函数基于子片段与指令之间的相似度。论文使用动态时间规整(DTW)来计算轨迹片段之间的相似度。此外,论文还设计了一种有效的推理算法,用于找到最大似然分割。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Play Segmentation (PS)方法提取的带标签片段进行数据增强,可以将指令跟随策略的性能提高到在两倍数量的带标签数据上训练的策略的水平。相比于随机采样片段,PS方法能够显著提升策略性能,验证了轨迹分割在数据增强中的有效性。

🎯 应用场景

该研究成果可广泛应用于机器人、游戏AI等领域,尤其适用于指令跟随任务。通过利用大量未标注数据,降低了对人工标注的依赖,从而加速智能体的开发和部署。例如,可以应用于家庭服务机器人,使其能够理解用户的指令并执行相应的动作。

📄 摘要(原文)

The scalability of instructable agents in robotics or gaming is often hindered by limited data that pairs instructions with agent trajectories. However, large datasets of unannotated trajectories containing sequences of various agent behaviour (play trajectories) are often available. In a semi-supervised setup, we explore methods to extract labelled segments from play trajectories. The goal is to augment a small annotated dataset of instruction-trajectory pairs to improve the performance of an instruction-following policy trained downstream via imitation learning. Assuming little variation in segment length, recent video segmentation methods can effectively extract labelled segments. To address the constraint of segment length, we propose Play Segmentation (PS), a probabilistic model that finds maximum likely segmentations of extended subsegments, while only being trained on individual instruction segments. Our results in a game environment and a simulated robotic gripper setting underscore the importance of segmentation; randomly sampled segments diminish performance, while incorporating labelled segments from PS improves policy performance to the level of a policy trained on twice the amount of labelled data.