AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models
作者: Tingzheng Jia, Kan Guo, Lanping Qian, Yongli Hu, Daxin Tian, Guixian Qu, Chunmian Lin, Baocai Yin, Jiapu Wang
分类: cs.RO, cs.AI
发布日期: 2026-04-20
💡 一句话要点
AnchorRefine:基于轨迹锚点和残差精化的视觉-语言-动作模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 机器人操作 轨迹规划 残差学习 分层控制
📋 核心要点
- 现有VLA模型在单一空间内优化全局运动和局部调整,导致小幅但关键的校正信号被抑制。
- AnchorRefine将VLA动作建模分解为轨迹锚点和残差精化,模拟人类操作的全局规划和局部调整。
- 实验表明,AnchorRefine显著提升了VLA模型的性能,在模拟和真实机器人任务中均有提升。
📝 摘要(中文)
精确操作既需要全局轨迹组织,也需要局部执行校正,但大多数视觉-语言-动作(VLA)策略在单一统一空间内生成动作。这种单体公式迫使宏观层面的运动和微观层面的精化在同一目标下进行优化,导致大的运动主导学习,同时抑制了小的但对失败至关重要的校正信号。相比之下,人类的操作是通过全局运动规划以及执行期间的连续局部调整来构建的。受此原则的启发,我们提出了AnchorRefine,一个分层框架,将VLA动作建模分解为轨迹锚点和残差精化。锚点规划器预测粗略的运动支架,而精化模块校正执行层面的偏差,以提高几何和接触精度。我们进一步引入了一种决策感知的抓取器精化机制,以更好地捕捉抓取器控制的离散和边界敏感特性。在LIBERO、CALVIN和真实机器人任务上的实验表明,AnchorRefine始终改进了基于回归和基于扩散的VLA骨干网络,在模拟成功率方面提高了高达7.8%,在真实世界成功率方面提高了18%。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型通常在一个统一的空间中生成动作,这使得模型难以同时优化全局的轨迹规划和局部的执行修正。这种单体式的优化方式导致模型更关注大幅度的运动,而忽略了那些细微但对成功至关重要的校正动作,从而影响了操作的精度和成功率。
核心思路:AnchorRefine的核心思想是将VLA动作建模分解为两个层次:轨迹锚点和残差精化。轨迹锚点负责生成一个粗略的全局运动轨迹,而残差精化模块则负责在执行过程中对轨迹进行局部调整,以提高几何和接触精度。这种分层结构模仿了人类操作的模式,即先进行全局规划,然后在执行过程中进行持续的局部调整。
技术框架:AnchorRefine框架包含两个主要模块:锚点规划器和残差精化模块。锚点规划器接收视觉和语言输入,预测一个粗略的运动轨迹作为锚点。残差精化模块则基于当前的视觉状态和锚点轨迹,预测一个残差动作,用于修正当前的执行偏差。此外,该框架还引入了一个决策感知的抓取器精化机制,用于更好地控制抓取器的开合。
关键创新:AnchorRefine的关键创新在于将VLA动作建模分解为轨迹锚点和残差精化,从而实现了全局规划和局部调整的解耦。这种分层结构使得模型能够更好地学习和优化不同尺度的动作,从而提高了操作的精度和成功率。此外,决策感知的抓取器精化机制也能够更好地捕捉抓取器控制的离散特性。
关键设计:锚点规划器可以使用各种现有的VLA模型作为骨干网络,例如基于回归的模型或基于扩散的模型。残差精化模块通常采用一个小型神经网络,接收视觉状态和锚点轨迹作为输入,输出一个残差动作。决策感知的抓取器精化机制可以通过一个分类器来预测抓取器的开合状态,并将其融入到残差动作中。损失函数通常包括轨迹预测损失、残差动作损失和抓取器状态预测损失。
🖼️ 关键图片
📊 实验亮点
AnchorRefine在LIBERO、CALVIN和真实机器人任务上进行了评估,实验结果表明,AnchorRefine能够显著提升VLA模型的性能。在模拟环境中,AnchorRefine将成功率提高了高达7.8%。在真实机器人任务中,AnchorRefine将成功率提高了高达18%。这些结果表明,AnchorRefine是一种有效的VLA动作建模方法,具有很强的实用价值。
🎯 应用场景
AnchorRefine具有广泛的应用前景,可应用于各种需要精确操作的机器人任务中,例如装配、抓取、操作等。该方法可以提高机器人在复杂环境中的操作精度和鲁棒性,从而实现更智能、更高效的自动化生产。此外,该方法还可以应用于医疗机器人、服务机器人等领域,提高机器人的操作能力和服务质量。
📄 摘要(原文)
Precision-critical manipulation requires both global trajectory organization and local execution correction, yet most vision-language-action (VLA) policies generate actions within a single unified space. This monolithic formulation forces macro-level transport and micro-level refinement to be optimized under the same objective, causing large motions to dominate learning while suppressing small but failure-critical corrective signals. In contrast, human manipulation is structured by global movement planning together with continuous local adjustment during execution. Motivated by this principle, we propose AnchorRefine, a hierarchical framework that factorizes VLA action modeling into trajectory anchor and residual refinement. The anchor planner predicts a coarse motion scaffold, while the refinement module corrects execution-level deviations to improve geometric and contact precision. We further introduce a decision-aware gripper refinement mechanism to better capture the discrete and boundary-sensitive nature of gripper control. Experiments on LIBERO, CALVIN, and real-robot tasks demonstrate that AnchorRefine consistently improves both regression-based and diffusion-based VLA backbones, yielding gains of up to 7.8% in simulation success rate and 18% in real-world success rate.