RoHIL: Robust Human-in-the-Loop Robotic Reinforcement Learning Against Illumination Variations
作者: Shuoqin Zhang, Yixin Xiong, Xiru Gao, Kai Liu, Ke Wang, Xichuan Zhou, Zhe Hu
分类: cs.RO
发布日期: 2026-05-19
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
RoHIL:一种针对光照变化的鲁棒人机协作强化学习方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人机协作强化学习 光照变化 领域泛化 离线微调 图像重光照 抗遗忘 机器人操作
📋 核心要点
- 现有的人机协作强化学习方法在光照变化下泛化能力差,需要为每个新环境重新训练。
- RoHIL通过离线微调,利用图像重光照、光照保持回放和锚定的贝尔曼-Actor正则化器来解决光照变化问题。
- 实验表明,RoHIL在光照变化下显著提升了性能,同时保持了原始环境的性能,无需重新收集数据和训练。
📝 摘要(中文)
人机协作强化学习系统在训练工作站上通常表现出色,但当机器人移动到几米之外的工作站时,由于新的灯光位置和窗户光线导致视觉输入分布发生变化,性能会急剧下降。为每个工作站重新收集演示数据并重新运行人机协作强化学习是不切实际的,而直接在光照变化的数据上进行微调会导致对原始工作站的灾难性遗忘。为了弥合这种跨域差距,我们提出了RoHIL,一种无需额外真实机器人交互的离线微调框架。RoHIL结合了:(i)基于世界模型的图像重光照器,可在多个虚拟HDRI环境下重新合成原始工作站轨迹的视觉流,同时保持动作和奖励不变;(ii)光照保持回放(IRR),一种数据层面的抗遗忘机制,通过交错重光照适应转移和原始光照保持转移来保留原始工作站的贝尔曼覆盖;(iii)锚定的贝尔曼-Actor正则化器,用于约束表示和策略偏离原始工作站策略。在显著的跨工作站光照变化的四个真实机器人操作任务中,RoHIL显著提高了标准人机协作强化学习失败情况下的光照变化性能,同时保留了原始工作站的性能,从而无需为每个新的工作站和环境重新收集数据和重新训练。
🔬 方法详解
问题定义:论文旨在解决人机协作强化学习(HIL-RL)在不同光照环境下的泛化问题。现有的HIL-RL方法在训练环境中表现良好,但当部署到光照条件不同的新环境中时,性能会显著下降,甚至完全失效。直接在新环境数据上微调会导致灾难性遗忘,而为每个新环境重新收集数据和训练成本高昂且不切实际。
核心思路:RoHIL的核心思路是通过离线微调,使模型能够适应新的光照环境,同时保留在原始环境中的知识。该方法通过图像重光照技术生成不同光照条件下的数据,并利用抗遗忘机制和正则化方法来防止模型过度适应新环境,从而实现跨光照环境的泛化。
技术框架:RoHIL的整体框架包含三个主要模块:1) 图像重光照器:使用基于世界模型的图像重光照器,将原始工作站的视觉流在多个虚拟HDRI环境下重新合成,生成不同光照条件下的数据。2) 光照保持回放(IRR):通过交错重光照适应转移和原始光照保持转移,保留原始工作站的贝尔曼覆盖,防止灾难性遗忘。3) 锚定的贝尔曼-Actor正则化器:约束表示和策略偏离原始工作站策略,进一步防止模型过度适应新环境。
关键创新:RoHIL的关键创新在于结合了图像重光照、抗遗忘机制和正则化方法,实现了一种无需额外真实机器人交互的离线微调框架,能够有效解决人机协作强化学习在光照变化下的泛化问题。与现有方法相比,RoHIL无需为每个新环境重新收集数据和训练,大大降低了部署成本。
关键设计:图像重光照器使用预训练的世界模型,能够生成逼真的不同光照条件下的图像。光照保持回放(IRR)通过控制重光照适应转移和原始光照保持转移的比例,平衡了适应性和稳定性。锚定的贝尔曼-Actor正则化器使用贝尔曼误差作为锚定目标,约束策略的漂移。具体的损失函数包括重光照数据的贝尔曼误差损失、原始数据的贝尔曼误差损失以及策略正则化损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RoHIL在四个真实机器人操作任务中显著提高了光照变化下的性能,其中在一些任务中,标准HIL-RL方法完全失效,而RoHIL能够成功完成任务。同时,RoHIL还能够保持原始工作站的性能,避免了灾难性遗忘。与直接微调相比,RoHIL在光照变化下的性能提升显著,并且能够更好地保留原始环境的知识。
🎯 应用场景
RoHIL可应用于各种需要在不同光照条件下运行的机器人操作任务,例如仓库拣选、装配线操作和家庭服务机器人。该方法能够显著降低部署成本,提高机器人的鲁棒性和泛化能力,使其能够适应真实世界中复杂多变的光照环境。未来,RoHIL可以扩展到其他类型的环境变化,例如背景变化和物体变化,从而进一步提高机器人的适应性。
📄 摘要(原文)
Human-in-the-loop reinforcement learning systems achieve near-perfect success on the workstation where they are trained, but collapse when the same robot is moved to a workstation a few meters away due to shifts in the visual input distribution caused by new lamp positions and window light. Re-collecting demonstrations and re-running HIL on every workstation is incompatible with deployment, and naively fine-tuning on shifted-light data triggers catastrophic forgetting of the source workstation. To close this cross-domain gap, we present RoHIL, an offline fine-tuning framework that uses no extra real-robot interaction. RoHIL combines (i) a world-model-based image relighter that re-synthesises the visual stream of source-workstation trajectories under multiple virtual HDRI environments, leaving actions and rewards real; (ii) Illumination-Retention Replay (IRR), a data-level anti-forgetting mechanism that interleaves relit adaptation transitions with original-light retention transitions to preserve source-workstation Bellman coverage; and (iii) an anchored Bellman-actor regulariser that constrains representation and policy drift from the original source-workstation policy. Across four real-robot manipulation tasks under significant cross-workstation illumination variations, RoHIL substantially improves shifted-light performance where standard HIL-RL collapses, while preserving source-workstation performance, eliminating the need to re-collect data and retrain for every new workstation and environment. Project page: https://anonymous4365.github.io/RoHIL/