OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation
作者: Yunyang Mo, Jian Li, Qiwei Wu, Yihang Kang, Renjing Xu
分类: cs.RO
发布日期: 2026-05-15
💡 一句话要点
提出OHP-RL框架,利用在线人类偏好指导机器人操作强化学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 人机协作 机器人操作 在线学习 偏好学习
📋 核心要点
- 现有强化学习方法在机器人操作任务中探索效率低且安全性差,人机交互虽有帮助,但未能充分利用人类干预提供的丰富指导信息。
- OHP-RL框架将人类干预视为偏好信息,通过状态相关的偏好门自适应地调节人类干预对策略学习的影响,从而实现更有效的学习。
- 在真实机器人操作任务中,OHP-RL相比现有方法,显著提高了成功率,加快了收敛速度,并降低了人工干预的需求。
📝 摘要(中文)
强化学习(RL)使机器人能够自主学习技能,但其在现实世界的部署受到低效和不安全探索的严重限制。人机交互提供了一种实用的解决方案,但现有方法通常将这些交互作为辅助训练信号,而没有充分捕捉它们提供的关于何时以及如何指导自主性的更丰富的信息。人类干预通常编码了在安全和任务约束下对行为的相对偏好,而不是规定要模仿的精确动作。受此观点的启发,我们提出了在线人类偏好作为强化学习指导(OHP-RL)框架,该框架利用人类干预作为偏好信息来指导策略学习。OHP-RL引入了一个状态相关的偏好门,自适应地调节人类干预应该在何时以及在多大程度上影响策略学习。这种设计使智能体能够受益于间歇性和不完美的人类反馈,同时保持自主探索和稳定的策略优化。我们在Franka机器人上的三个具有挑战性的真实接触丰富的操作任务上评估了OHP-RL。在所有任务中,OHP-RL始终如一地实现了强大的成功率、更快的收敛速度和比现有方法低得多的人工干预工作量。此外,学习到的策略在整个训练过程中表现出更稳定和与人类对齐的行为。
🔬 方法详解
问题定义:现有基于强化学习的机器人操作方法,在真实环境中部署时,面临探索效率低、安全性差的问题。虽然人机交互可以提供指导,但现有方法通常将人类干预视为简单的辅助训练信号,未能充分利用人类干预中蕴含的关于行为偏好的信息,例如,人类更倾向于哪些状态下的哪些行为,以及何时需要干预等。
核心思路:论文的核心思路是将人类干预视为一种偏好信息,而不是简单的动作模仿。通过学习人类的偏好,机器人可以更好地理解人类期望的行为模式,从而更有效地进行探索和学习。这种方法允许机器人从间歇性和不完美的人类反馈中获益,同时保持自主探索的能力。
技术框架:OHP-RL框架包含以下主要模块:1) 强化学习智能体,负责自主探索和策略学习;2) 人类干预接口,允许人类在必要时对机器人的行为进行干预;3) 状态相关的偏好门,根据当前状态自适应地调节人类干预对策略学习的影响。整体流程是:机器人首先进行自主探索,当人类认为机器人的行为不安全或不符合任务要求时,进行干预。偏好门根据当前状态决定是否以及在多大程度上接受人类的干预,并将干预信息融入到策略学习过程中。
关键创新:OHP-RL的关键创新在于引入了状态相关的偏好门。这个偏好门能够根据当前状态自适应地调节人类干预对策略学习的影响。与现有方法相比,OHP-RL能够更有效地利用人类干预信息,避免了盲目模仿人类行为,从而提高了学习效率和策略的鲁棒性。
关键设计:偏好门的设计是关键。具体实现细节未知,但可以推测其输入包括当前状态信息,输出是介于0和1之间的权重,用于调节人类干预信号的强度。损失函数可能包含两部分:一部分是标准的强化学习损失,用于鼓励自主探索;另一部分是偏好损失,用于鼓励机器人学习人类的偏好。偏好损失的具体形式未知,但可能基于人类干预的频率、干预的幅度等信息进行设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在三个具有挑战性的真实机器人操作任务中,OHP-RL相比现有方法,显著提高了成功率,加快了收敛速度,并降低了人工干预的需求。具体数据未知,但摘要中强调了“strong success rates, faster convergence, and substantially lower human intervention effort”。此外,学习到的策略在整个训练过程中表现出更稳定和与人类对齐的行为。
🎯 应用场景
OHP-RL框架可应用于各种需要人机协作的机器人操作任务,例如:复杂装配、医疗手术、家庭服务等。通过学习人类的偏好,机器人可以更好地适应不同的任务环境和用户需求,提高工作效率和安全性。该研究有助于推动人机协作机器人在实际场景中的应用。
📄 摘要(原文)
While reinforcement learning (RL) enables robots to acquire skills autonomously, its real-world deployment is severely limited by inefficient and unsafe exploration. Human-in-the-loop interventions offer a practical solution, yet existing methods typically exploit these interventions as auxiliary training signals, without fully capturing the richer information they provide about when and how autonomy should be guided. Human interventions often encode relative preferences over behavior under safety and task constraints, rather than prescribing exact actions to imitate. Motivated by this perspective, we propose Online Human Preference as Guidance in Reinforcement Learning (OHP-RL), a framework that leverages human interventions as preference information to guide policy learning. OHP-RL introduces a state-dependent preference gate that adaptively regulates when and to what extent human interventions should shape policy learning. This design enables the agent to benefit from intermittent and imperfect human feedback while preserving autonomous exploration and stable policy optimization. We evaluate OHP-RL on three challenging real-world contact-rich manipulation tasks on a Franka robot. Across all tasks, OHP-RL consistently achieves strong success rates, faster convergence, and substantially lower human intervention effort than prior approaches. Moreover, the learned policies exhibit more stable and human-aligned behavior throughout training.