Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation
作者: Jiahua Ma, Yiran Qin, Xin Wen, Yixiong Li, Yuyu Sun, Yulan Guo, Liang Lin, Ruimao Zhang
分类: cs.RO, cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出ReV框架,通过引入参考点增强机器人操作的鲁棒性和动态重规划能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 视觉运动策略学习 扩散模型 轨迹重规划 参考感知 闭环控制 模仿学习
📋 核心要点
- 现有视觉运动策略学习方法在分布外场景或需要动态重规划时鲁棒性不足,限制了其应用。
- ReV框架通过耦合扩散头,结合全局动作锚点生成和局部自适应插值,实现参考点引导的轨迹调整。
- ReV仅需对专家演示进行扰动训练,无需额外数据或微调,即可在复杂任务中显著提高成功率。
📝 摘要(中文)
本文旨在解决机器人操作中基于视觉的运动策略学习问题,即如何增强模型在分布外执行错误或动态轨迹重规划中的鲁棒性,尤其是在仅依赖原始专家演示进行训练的情况下。我们提出了参考感知视觉运动策略(ReV),这是一个闭环框架,可以通过即时整合由人类或高级推理规划器提供的稀疏参考点来适应不可预见的情况。具体而言,ReV利用耦合扩散头来保持标准的任务执行模式,同时通过轨迹引导策略无缝集成稀疏参考。在接收到特定的参考点后,全局扩散头首先生成一系列全局一致但时间上稀疏的动作锚点,同时识别该参考点在此序列中的精确时间位置。随后,局部扩散头基于当前时间位置自适应地插值相邻锚点以完成特定任务。这个闭环过程在每个执行步骤重复进行,从而能够实时地响应场景中的动态变化进行轨迹重规划。在实践中,ReV仅通过对专家演示应用有针对性的扰动进行训练,而无需依赖精细的注释。在没有任何额外数据或微调方案的情况下,ReV在具有挑战性的模拟和真实世界任务中实现了更高的成功率。
🔬 方法详解
问题定义:现有基于视觉的机器人操作策略学习方法,在训练数据分布之外的环境中,或者需要动态调整轨迹以应对突发情况时,表现出较差的鲁棒性。这些方法通常依赖于大量的专家演示数据,并且难以适应新的参考信息或目标。因此,如何使机器人能够根据外部参考点实时调整其运动轨迹,成为一个重要的挑战。
核心思路:ReV的核心思路是利用参考点来引导机器人运动轨迹的生成。通过将参考点信息融入到扩散模型中,ReV能够生成既符合全局任务目标,又能满足局部参考点约束的运动轨迹。这种方法的核心在于将全局规划和局部调整相结合,使得机器人能够灵活地适应环境变化。
技术框架:ReV框架包含两个主要的扩散头:全局扩散头和局部扩散头。全局扩散头负责生成一系列全局一致但时间上稀疏的动作锚点,这些锚点定义了任务的大致执行路径。同时,全局扩散头还负责识别参考点在这些锚点中的时间位置。局部扩散头则根据当前的时间位置,自适应地插值相邻的锚点,生成具体的动作序列。整个过程是一个闭环控制过程,在每个执行步骤中都会重复进行,从而实现实时的轨迹重规划。
关键创新:ReV的关键创新在于其参考感知的扩散模型结构。通过耦合全局和局部扩散头,ReV能够有效地融合全局任务目标和局部参考点信息。此外,ReV的训练方式也十分创新,它仅通过对专家演示进行扰动来生成训练数据,避免了对大量标注数据的依赖。这种训练方式使得ReV能够更好地泛化到新的环境中。
关键设计:ReV的关键设计包括:1) 耦合扩散头的结构,允许全局和局部信息的有效融合;2) 轨迹引导策略,用于将参考点信息融入到扩散模型中;3) 基于扰动的训练方法,避免了对大量标注数据的依赖。具体的网络结构和损失函数细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
ReV在模拟和真实世界的机器人操作任务中都取得了显著的成果。实验结果表明,ReV在没有额外数据或微调的情况下,相比于其他基线方法,能够显著提高任务的成功率。具体的性能提升数据需要在论文中查找(未知)。ReV的成功表明,参考感知的运动策略学习方法具有巨大的潜力。
🎯 应用场景
ReV框架具有广泛的应用前景,例如在复杂装配任务中,操作员可以通过指定关键的参考点来引导机器人完成装配过程。在动态环境中,ReV可以帮助机器人实时调整其运动轨迹,以应对突发的障碍物或目标位置变化。此外,ReV还可以应用于人机协作场景,使机器人能够更好地理解人类的意图,并与之协同完成任务。
📄 摘要(原文)
This paper addresses a fundamental problem of visuomotor policy learning for robotic manipulation: how to enhance robustness in out-of-distribution execution errors or dynamically re-routing trajectories, where the model relies solely on the original expert demonstrations for training. We introduce the Referring-Aware Visuomotor Policy (ReV), a closed-loop framework that can adapt to unforeseen circumstances by instantly incorporating sparse referring points provided by a human or a high-level reasoning planner. Specifically, ReV leverages the coupled diffusion heads to preserve standard task execution patterns while seamlessly integrating sparse referring via a trajectory-steering strategy. Upon receiving a specific referring point, the global diffusion head firstly generates a sequence of globally consistent yet temporally sparse action anchors, while identifies the precise temporal position for the referring point within this sequence. Subsequently, the local diffusion head adaptively interpolates adjacent anchors based on the current temporal position for specific tasks. This closed-loop process repeats at every execution step, enabling real-time trajectory replanning in response to dynamic changes in the scene. In practice, rather than relying on elaborate annotations, ReV is trained only by applying targeted perturbations to expert demonstrations. Without any additional data or fine-tuning scheme, ReV achieve higher success rates across challenging simulated and real-world tasks.