Representation Alignment from Human Feedback for Cross-Embodiment Reward Learning from Mixed-Quality Demonstrations

📄 arXiv: 2408.05610v1 📥 PDF

作者: Connor Mattson, Anurag Aribandi, Daniel S. Brown

分类: cs.RO, cs.AI

发布日期: 2024-08-10

备注: First Two Authors Share Equal Contribution. 19 Pages, 4 Figures


💡 一句话要点

提出基于人类反馈的表征对齐方法,解决混合质量演示下的跨具身奖励学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 跨具身学习 逆强化学习 人类反馈 表征学习 奖励函数 模仿学习 混合质量数据

📋 核心要点

  1. 现有跨具身逆强化学习方法依赖于高质量演示数据,但在实际应用中难以保证演示质量,导致泛化能力不足。
  2. 论文提出利用人类反馈进行表征学习和对齐,从而提升从混合质量演示数据中学习到的奖励函数在不同具身之间的泛化能力。
  3. 实验结果表明,所提出的方法能够有效地学习到可泛化的奖励表征,并在跨具身任务中取得显著的性能提升。

📝 摘要(中文)

本文研究了跨具身逆强化学习问题,目标是从一个或多个具身中的视频演示中学习奖励函数,并将学习到的奖励转移到不同的具身(例如,不同的动作空间、动力学、大小、形状等)。学习可跨具身转移的奖励函数在许多场景中非常重要,例如通过人类视频演示教机器人策略,或者教一个机器人模仿另一个具有不同具身的机器人的策略。然而,先前的工作只关注于近乎最优演示可用的情况,这通常难以保证。与此相反,我们研究了从混合质量演示中进行跨具身奖励学习的场景。我们证明了先前的工作在从混合质量数据中学习时,难以学习到可泛化的奖励表征。然后,我们分析了几种利用人类反馈进行表征学习和对齐的技术,以实现有效的跨具身学习。我们的结果深入了解了不同的表征学习技术如何导致定性上不同的奖励塑造行为,以及在从混合质量、混合具身数据中学习时人类反馈的重要性。

🔬 方法详解

问题定义:论文旨在解决跨具身逆强化学习中,从混合质量的演示数据中学习奖励函数,并将其泛化到具有不同动作空间、动力学等特征的新具身的问题。现有方法在处理混合质量数据时,难以学习到具有良好泛化能力的奖励表征,导致跨具身迁移性能下降。

核心思路:论文的核心思路是利用人类反馈来指导奖励表征的学习和对齐。通过人类的偏好信息,可以更好地学习到与任务目标相关的特征,并对齐不同具身之间的表征空间,从而提高奖励函数的泛化能力。

技术框架:整体框架包含以下几个主要模块:1) 从混合质量的演示数据中提取状态和动作序列;2) 利用人类反馈(例如,pairwise comparisons)学习奖励模型;3) 使用学习到的奖励模型训练新具身的策略。关键在于如何将人类反馈融入到奖励表征的学习过程中。

关键创新:最重要的创新点在于将人类反馈有效地融入到跨具身奖励学习中,通过人类的偏好信息来指导奖励表征的学习和对齐,从而克服了混合质量数据带来的挑战,提高了奖励函数的泛化能力。与现有方法相比,该方法能够更好地处理实际应用中常见的低质量演示数据。

关键设计:论文可能采用了以下关键设计:1) 使用对比学习损失函数,根据人类的偏好信息,拉近更符合人类意图的状态-动作对的表征,推远不符合人类意图的表征;2) 设计特定的网络结构,例如使用共享编码器来提取不同具身的状态和动作特征,并使用对齐模块来减小不同具身之间的表征差异;3) 探索不同类型的人类反馈,例如pairwise comparisons、ranking等,并研究它们对奖励学习的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文重点研究了在混合质量演示数据下,如何利用人类反馈提升跨具身奖励学习的性能。实验结果表明,通过引入人类反馈进行表征对齐,能够显著提高奖励函数的泛化能力,并在不同具身之间实现有效的策略迁移。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于机器人模仿学习、人机协作等领域。例如,可以通过观看人类的视频演示,学习机器人的控制策略,即使演示视频质量不高,也能通过人类反馈进行纠正和改进。这有助于降低机器人学习的成本,并提高机器人在复杂环境中的适应能力。未来,该技术有望应用于自动驾驶、智能制造等领域。

📄 摘要(原文)

We study the problem of cross-embodiment inverse reinforcement learning, where we wish to learn a reward function from video demonstrations in one or more embodiments and then transfer the learned reward to a different embodiment (e.g., different action space, dynamics, size, shape, etc.). Learning reward functions that transfer across embodiments is important in settings such as teaching a robot a policy via human video demonstrations or teaching a robot to imitate a policy from another robot with a different embodiment. However, prior work has only focused on cases where near-optimal demonstrations are available, which is often difficult to ensure. By contrast, we study the setting of cross-embodiment reward learning from mixed-quality demonstrations. We demonstrate that prior work struggles to learn generalizable reward representations when learning from mixed-quality data. We then analyze several techniques that leverage human feedback for representation learning and alignment to enable effective cross-embodiment learning. Our results give insight into how different representation learning techniques lead to qualitatively different reward shaping behaviors and the importance of human feedback when learning from mixed-quality, mixed-embodiment data.