TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations

📄 arXiv: 2505.06079v1 📥 PDF

作者: Shuaiyi Huang, Mara Levy, Anubhav Gupta, Daniel Ekpo, Ruijie Zheng, Abhinav Shrivastava

分类: cs.RO, cs.CV

发布日期: 2025-05-09

备注: ICRA 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

TREND:结合少量演示和三教师策略,提升噪声偏好强化学习的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 偏好强化学习 噪声鲁棒性 三教师学习 专家演示 机器人操作

📋 核心要点

  1. 偏好强化学习依赖准确的偏好标签,但人工或VLM标注的偏好反馈常含噪声,影响学习效果。
  2. TREND采用三教师策略,每个奖励模型将高质量偏好对作为知识,互相学习以提升模型鲁棒性。
  3. 实验表明,TREND仅需少量专家演示,即可在噪声环境下显著提升机器人操作任务的成功率。

📝 摘要(中文)

本文提出了一种名为TREND的新框架,旨在解决偏好强化学习中因人类或VLM标注器引入的噪声偏好反馈问题。该框架集成了少量专家演示和三教师策略,以有效缓解噪声影响。TREND同时训练三个奖励模型,每个模型将其小损失偏好对视为有用知识,并将其传递给其他模型以更新参数。实验结果表明,该方法仅需一到三个专家演示即可实现高性能。在各种机器人操作任务中,即使噪声水平高达40%,TREND仍能达到高达90%的成功率,突显了其在处理噪声偏好反馈方面的有效性和鲁棒性。

🔬 方法详解

问题定义:偏好强化学习中,从人类或视觉语言模型(VLM)收集的偏好反馈通常包含噪声,这严重影响了奖励模型的学习和策略的优化。现有方法难以有效处理这种噪声,导致学习到的策略性能下降。

核心思路:TREND的核心思路是利用三教师策略,通过多个奖励模型之间的互相学习和知识共享,来过滤和纠正噪声偏好数据。每个模型都将自身认为高质量(即损失较小)的偏好对视为有用知识,并将其传递给其他模型,从而实现噪声过滤和模型鲁棒性的提升。少量专家演示的引入进一步加速了学习过程,并提供了更可靠的偏好信息。

技术框架:TREND框架包含三个并行的奖励模型,每个模型都基于相同的网络结构。训练过程中,每个模型首先根据当前的偏好数据计算损失,然后选择损失最小的偏好对作为“有用知识”。这些“有用知识”被传递给其他两个模型,用于更新它们的参数。此外,框架还集成了少量专家演示,这些演示被用于初始化奖励模型,并作为额外的偏好信息来指导学习。整体流程包括数据收集、偏好标注、奖励模型训练和策略优化四个阶段。

关键创新:TREND的关键创新在于其三教师策略,它通过多个模型之间的互相学习和知识共享,有效地缓解了噪声偏好数据的影响。与传统的单模型偏好强化学习方法相比,TREND能够更鲁棒地学习奖励模型,并获得更好的策略性能。此外,少量专家演示的引入也显著提升了学习效率和最终性能。

关键设计:每个奖励模型通常采用深度神经网络结构,例如多层感知机或卷积神经网络。损失函数通常采用pairwise ranking loss,用于衡量偏好对之间的排序关系。在三教师策略中,需要设置一个阈值来选择“有用知识”,该阈值可以根据实际情况进行调整。专家演示的数量通常设置为1-3个,以平衡学习效率和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TREND在多个机器人操作任务上进行了评估,结果表明,即使在40%的噪声水平下,TREND仍能达到高达90%的成功率。与基线方法相比,TREND在噪声环境下表现出更强的鲁棒性,并且仅需少量专家演示即可实现高性能。例如,在某项任务中,TREND的成功率比基线方法提高了20%以上。

🎯 应用场景

TREND可应用于各种需要从人类或VLM获取偏好反馈的强化学习任务中,例如机器人操作、自动驾驶、游戏AI等。该方法尤其适用于偏好数据质量不高或获取成本较高的场景,能够显著提升学习效率和策略性能。未来,TREND可以扩展到更复杂的任务和更广泛的应用领域,例如人机协作和个性化推荐。

📄 摘要(原文)

Preference feedback collected by human or VLM annotators is often noisy, presenting a significant challenge for preference-based reinforcement learning that relies on accurate preference labels. To address this challenge, we propose TREND, a novel framework that integrates few-shot expert demonstrations with a tri-teaching strategy for effective noise mitigation. Our method trains three reward models simultaneously, where each model views its small-loss preference pairs as useful knowledge and teaches such useful pairs to its peer network for updating the parameters. Remarkably, our approach requires as few as one to three expert demonstrations to achieve high performance. We evaluate TREND on various robotic manipulation tasks, achieving up to 90% success rates even with noise levels as high as 40%, highlighting its effective robustness in handling noisy preference feedback. Project page: https://shuaiyihuang.github.io/publications/TREND.