Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment
作者: Ran Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2024-12-06
备注: Submitted to IJRR, this paper is an extended journal version of the conference paper arXiv:2310.07932 with new results and discussion. arXiv admin note: substantial text overlap with arXiv:2310.07932
💡 一句话要点
RAPL:通过表征对齐和少量反馈高效学习视觉运动机器人策略的奖励函数
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人学习 强化学习 人类反馈 视觉表征 表征对齐 偏好学习 视觉运动控制
📋 核心要点
- 现有视觉运动策略对齐方法需要大量人工反馈来学习视觉奖励函数,成本高昂且效率低下。
- RAPL通过对齐预训练视觉编码器与用户视觉表征,并进行特征匹配来构建密集奖励,显著减少所需反馈。
- 实验表明RAPL能更有效地利用偏好数据,泛化到不同机器人,并用少5倍数据微调策略。
📝 摘要(中文)
大规模数据集上预训练的视觉运动机器人策略在机器人领域展现出巨大潜力。然而,如何使这些策略与终端用户的偏好对齐仍然是一个挑战,尤其是在偏好难以明确指定时。尽管基于人类反馈的强化学习(RLHF)已成为非具身领域(如大型语言模型)中的主要对齐机制,但由于学习视觉奖励函数需要大量的人工反馈,它在视觉运动策略对齐方面并未取得同样的成功。为了解决这个限制,我们提出了一种基于表征对齐的偏好学习方法(RAPL),这是一种仅使用观察的方法,可以用更少的人类偏好反馈来学习视觉奖励。与传统的RLHF不同,RAPL侧重于微调预训练的视觉编码器,使其与终端用户的视觉表征对齐,然后通过在此对齐的表征空间中进行特征匹配来构建密集的视觉奖励。我们首先通过X-Magical基准和Franka Panda机器人操作的仿真实验验证了RAPL,证明它可以学习与人类偏好对齐的奖励,更有效地利用偏好数据,并推广到不同的机器人形态。最后,我们的硬件实验对齐了预训练的扩散策略,用于三个物体操作任务。我们发现RAPL可以用少5倍的真实人类偏好数据来微调这些策略,朝着最小化人类反馈同时最大化视觉运动机器人策略对齐迈出了第一步。
🔬 方法详解
问题定义:论文旨在解决视觉运动机器人策略与人类用户偏好对齐的问题。现有基于人类反馈的强化学习方法(RLHF)在视觉运动控制领域面临挑战,主要原因是学习视觉奖励函数需要大量的人工反馈,这在实际应用中是难以承受的。现有方法难以有效利用有限的反馈数据,且泛化能力不足。
核心思路:RAPL的核心思路是通过对齐视觉表征来减少对人工反馈的需求。具体来说,它首先微调预训练的视觉编码器,使其输出的特征向量能够更好地反映用户的视觉偏好。然后,通过在对齐后的特征空间中进行特征匹配,构建一个密集的视觉奖励函数。这样,即使只有少量的用户偏好数据,也能学习到一个有效的奖励函数。
技术框架:RAPL的整体框架包括以下几个主要阶段:1) 使用大规模数据集预训练视觉编码器;2) 收集少量人类偏好数据,这些数据包含不同状态的图像以及用户对这些状态的偏好;3) 使用收集到的偏好数据微调预训练的视觉编码器,使其输出的特征向量与用户的视觉表征对齐;4) 在对齐后的特征空间中,通过特征匹配构建密集的视觉奖励函数;5) 使用强化学习算法,基于构建的奖励函数训练机器人策略。
关键创新:RAPL最重要的技术创新点在于它将人类反馈的重点从直接学习奖励函数转移到学习视觉表征。通过对齐视觉表征,RAPL能够更有效地利用有限的人工反馈数据,并学习到一个泛化能力更强的奖励函数。与传统的RLHF方法相比,RAPL不需要直接从人类反馈中学习奖励函数,而是通过学习一个与人类视觉表征对齐的特征空间来间接获得奖励函数。
关键设计:RAPL的关键设计包括:1) 使用对比学习损失函数来微调视觉编码器,以确保对齐后的特征空间能够反映用户的视觉偏好;2) 使用余弦相似度作为特征匹配的度量,以构建密集的视觉奖励函数;3) 使用预训练的扩散策略作为初始策略,以加速强化学习的训练过程。
🖼️ 关键图片
📊 实验亮点
RAPL在X-Magical和Franka Panda机器人操作的仿真实验中表现出色,能够学习与人类偏好对齐的奖励,并推广到不同的机器人形态。在硬件实验中,RAPL仅使用5倍少的人类偏好数据,就能成功微调预训练的扩散策略,用于三个物体操作任务,显著提升了数据效率。
🎯 应用场景
RAPL可应用于各种需要机器人与人类偏好对齐的场景,如家庭服务机器人、工业机器人、医疗机器人等。通过RAPL,用户可以用少量反馈快速定制机器人的行为,使其更好地满足个性化需求。该研究有望降低机器人部署和使用的门槛,促进机器人技术在更广泛领域的应用。
📄 摘要(原文)
Visuomotor robot policies, increasingly pre-trained on large-scale datasets, promise significant advancements across robotics domains. However, aligning these policies with end-user preferences remains a challenge, particularly when the preferences are hard to specify. While reinforcement learning from human feedback (RLHF) has become the predominant mechanism for alignment in non-embodied domains like large language models, it has not seen the same success in aligning visuomotor policies due to the prohibitive amount of human feedback required to learn visual reward functions. To address this limitation, we propose Representation-Aligned Preference-based Learning (RAPL), an observation-only method for learning visual rewards from significantly less human preference feedback. Unlike traditional RLHF, RAPL focuses human feedback on fine-tuning pre-trained vision encoders to align with the end-user's visual representation and then constructs a dense visual reward via feature matching in this aligned representation space. We first validate RAPL through simulation experiments in the X-Magical benchmark and Franka Panda robotic manipulation, demonstrating that it can learn rewards aligned with human preferences, more efficiently uses preference data, and generalizes across robot embodiments. Finally, our hardware experiments align pre-trained Diffusion Policies for three object manipulation tasks. We find that RAPL can fine-tune these policies with 5x less real human preference data, taking the first step towards minimizing human feedback while maximizing visuomotor robot policy alignment.