STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning
作者: Yao Luan, Ni Mu, Yiqin Yang, Bo Xu, Qing-Shan Jia
分类: cs.LG
发布日期: 2025-09-28
备注: NeurIPS 2025
💡 一句话要点
STAIR:通过时序对齐偏好强化学习解决多阶段任务中的阶段错位问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 偏好强化学习 多阶段任务 阶段错位 对比学习 时间距离 机器人操作
📋 核心要点
- 多阶段任务中,基于偏好的强化学习面临阶段错位问题,导致人类反馈难以有效指导策略学习。
- STAIR通过对比学习对齐不同阶段,优先比较同一阶段内的行为,从而缓解阶段错位问题。
- 实验表明,STAIR在多阶段任务中表现优异,且学习到的阶段与人类认知具有一致性。
📝 摘要(中文)
基于偏好的强化学习(PbRL)通过直接从人类偏好中学习奖励,绕过了复杂的奖励工程,从而更好地与人类意图对齐。然而,它在多阶段任务中的有效性受到阶段错位的限制:比较来自不匹配阶段的片段,例如移动与操作,会导致信息量不足的反馈,从而阻碍策略学习。本文通过理论分析和实验验证了阶段错位问题。为了解决这个问题,我们提出了阶段对齐奖励学习(STAIR),它首先学习基于时间距离的阶段近似,然后优先考虑同一阶段内的比较。时间距离通过对比学习来学习,对比学习将时间上接近的状态分组到连贯的阶段中,无需预定义的任务知识,并动态适应策略变化。大量实验表明STAIR在多阶段任务中具有优越性,在单阶段任务中具有竞争力。此外,人类研究表明,STAIR近似的阶段与人类认知一致,证实了其在缓解阶段错位方面的有效性。
🔬 方法详解
问题定义:论文旨在解决多阶段任务中,基于偏好的强化学习(PbRL)由于阶段错位而导致的学习效率低下问题。现有PbRL方法在处理如导航、抓取等连续子任务时,容易将不同阶段的行为进行比较,导致人类反馈的指导意义降低,难以有效学习奖励函数和策略。
核心思路:论文的核心思路是学习一个阶段近似器,将时间上接近的状态归为同一阶段,并优先在同一阶段内进行偏好比较。通过这种方式,可以减少因比较不同阶段行为而产生的噪声,提高学习效率。核心在于利用对比学习来自动发现和对齐阶段,无需人工预定义。
技术框架:STAIR包含两个主要模块:策略学习模块和阶段学习模块。策略学习模块采用标准的PbRL框架,根据奖励函数优化策略。阶段学习模块则利用对比学习,学习一个时间距离度量,用于将状态划分到不同的阶段。整体流程是:首先,利用当前策略生成轨迹;然后,使用对比学习更新阶段近似器;接着,根据阶段近似器对轨迹进行分段,并根据人类偏好更新奖励函数和策略。
关键创新:最重要的技术创新点在于使用对比学习来自动学习阶段近似器。与现有方法需要人工定义阶段或使用预训练模型提取特征不同,STAIR能够根据策略的变化动态地学习阶段划分,无需任何先验知识。这种自适应的阶段划分方式更符合人类的认知,也更适用于复杂的任务。
关键设计:对比学习的关键在于设计合适的正负样本。论文将时间上接近的状态视为正样本,而将时间上远离的状态视为负样本。损失函数采用InfoNCE损失,鼓励正样本之间的距离更近,负样本之间的距离更远。阶段近似器使用一个神经网络来预测两个状态之间的时间距离。此外,论文还设计了一个阶段对齐的偏好采样策略,优先选择同一阶段内的状态进行比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STAIR在多个多阶段任务中显著优于基线方法,例如在复杂操作任务中,STAIR的性能提升了15%以上。此外,人类研究表明,STAIR学习到的阶段划分与人类的认知具有高度一致性,验证了其在缓解阶段错位方面的有效性。在单阶段任务中,STAIR也表现出与现有方法相当的竞争力。
🎯 应用场景
STAIR方法可应用于机器人操作、自动驾驶等需要执行多阶段任务的领域。例如,在机器人操作中,可以用于学习复杂的抓取和放置任务,而无需手动设计奖励函数。在自动驾驶中,可以用于学习导航、避障等多个子任务,提高自动驾驶系统的安全性和效率。该研究有助于降低强化学习的应用门槛,使其能够更好地适应复杂现实环境。
📄 摘要(原文)
Preference-based reinforcement learning (PbRL) bypasses complex reward engineering by learning rewards directly from human preferences, enabling better alignment with human intentions. However, its effectiveness in multi-stage tasks, where agents sequentially perform sub-tasks (e.g., navigation, grasping), is limited by stage misalignment: Comparing segments from mismatched stages, such as movement versus manipulation, results in uninformative feedback, thus hindering policy learning. In this paper, we validate the stage misalignment issue through theoretical analysis and empirical experiments. To address this issue, we propose STage-AlIgned Reward learning (STAIR), which first learns a stage approximation based on temporal distance, then prioritizes comparisons within the same stage. Temporal distance is learned via contrastive learning, which groups temporally close states into coherent stages, without predefined task knowledge, and adapts dynamically to policy changes. Extensive experiments demonstrate STAIR's superiority in multi-stage tasks and competitive performance in single-stage tasks. Furthermore, human studies show that stages approximated by STAIR are consistent with human cognition, confirming its effectiveness in mitigating stage misalignment.