Hand-in-the-Loop: Improving Dexterous VLA via Seamless Interventional Correction

📄 arXiv: 2605.15157v1 📥 PDF

作者: Zhuohang Li, Liqun Huang, Wei Xu, Zhengming Zhu, Nie Lin, Xiao Ma, Xinjun Sheng, Ruoshi Wen

分类: cs.RO, cs.LG

发布日期: 2026-05-14


💡 一句话要点

提出HandITL,通过无缝介入修正提升灵巧VLA操作性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 人机协作 交互式模仿学习 视觉-语言-动作模型 机器人控制

📋 核心要点

  1. 灵巧操作中VLA模型易累积误差,现有交互式模仿学习在机器人手上存在“姿势跳跃”问题。
  2. HandITL融合人类纠正意图与自主策略执行,实现无缝介入,避免姿势跳跃。
  3. 实验表明,HandITL显著减少接管抖动和抓取失败,提升操作完成效率和策略性能。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在灵巧操作中容易产生累积误差,高维动作空间和富接触动力学放大了长时间范围内的微小策略偏差。交互式模仿学习(IIL)可以通过人类接管数据来改进策略,但由于人类遥操作和策略执行之间的命令不匹配,将其应用于高自由度(DoF)机器人手仍然具有挑战性,这会导致突然的机器人手配置变化,即“姿势跳跃”。我们提出了Hand-in-the-Loop (HandITL),这是一种无缝的人在环介入方法,它将人类的纠正意图与自主策略执行相结合,以避免双手动灵巧操作期间的姿势跳跃。与直接遥操作接管相比,HandITL减少了99.8%的接管抖动,并保持了强大的接管后操作能力,减少了87.5%的抓取失败和19.1%的平均完成时间。我们在需要双手动协调、工具使用和精细长时程操作的任务上验证了HandITL。当用于收集介入数据以进行策略改进时,HandITL产生的策略在三个长时程灵巧任务上的表现平均优于使用标准遥操作数据训练的策略19%。

🔬 方法详解

问题定义:论文旨在解决灵巧操作任务中,视觉-语言-动作(VLA)模型由于高维动作空间和复杂动力学导致的累积误差问题。现有交互式模仿学习(IIL)方法在应用于高自由度机器人手时,存在人类遥操作与策略执行命令不匹配的问题,导致机器人手出现“姿势跳跃”,影响操作的流畅性和稳定性。

核心思路:论文的核心思路是将人类的纠正意图无缝地融入到机器人的自主策略执行中。通过设计一种人机协作机制,允许人类在必要时介入并纠正机器人的操作,同时避免突兀的控制切换导致的“姿势跳跃”。这种方法旨在结合人类的直觉和机器人的自主性,从而提高灵巧操作的性能和鲁棒性。

技术框架:HandITL的技术框架主要包含以下几个模块:1) 机器人自主策略执行模块:负责根据VLA模型生成动作序列并控制机器人手执行操作。2) 人类介入检测模块:监测机器人操作过程中的潜在错误或偏差,并判断是否需要人类介入。3) 无缝控制切换模块:在人类介入时,平滑地将控制权从机器人切换到人类,避免“姿势跳跃”。4) 人类纠正模块:允许人类通过遥操作等方式纠正机器人的操作。5) 策略优化模块:利用人类介入数据改进VLA模型,提高自主操作的性能。

关键创新:HandITL最重要的技术创新点在于其无缝介入机制。与传统的直接遥操作接管相比,HandITL能够平滑地融合人类的纠正意图与机器人的自主策略执行,避免了突兀的控制切换导致的“姿势跳跃”。这种无缝介入机制提高了人机协作的效率和流畅性,并为策略优化提供了更有效的数据。

关键设计:论文中关于无缝控制切换的具体实现细节未知。但可以推测,可能采用了某种加权平均或插值方法,将机器人自主策略生成的动作和人类遥操作输入的动作进行融合,从而实现平滑的控制切换。此外,论文可能还设计了一种特殊的损失函数,用于鼓励机器人学习人类的纠正行为,并提高自主操作的鲁棒性。具体参数设置和网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HandITL在灵巧操作任务中表现出色,与直接遥操作接管相比,接管抖动减少99.8%,抓取失败减少87.5%,平均完成时间缩短19.1%。利用HandITL收集的数据训练的策略,在三个长时程灵巧任务上的性能平均提升19%。这些数据表明HandITL在提升灵巧操作性能方面具有显著优势。

🎯 应用场景

HandITL技术可应用于各种需要精细操作的机器人任务,如医疗手术、精密仪器组装、危险环境下的物品处理等。通过结合人类的经验和机器人的精确性,可以显著提高操作的效率和安全性。未来,该技术有望在智能制造、医疗健康、航空航天等领域发挥重要作用。

📄 摘要(原文)

Vision-Language-Action (VLA) models are prone to compounding errors in dexterous manipulation, where high-dimensional action spaces and contact-rich dynamics amplify small policy deviations over long horizons. While Interactive Imitation Learning (IIL) can refine policies through human takeover data, applying it to high-degree-of-freedom (DoF) robotic hands remains challenging due to a command mismatch between human teleoperation and policy execution at the takeover moment, which causes abrupt robot-hand configuration changes, or "gesture jumps". We present Hand-in-the-Loop (HandITL), a seamless human-in-the-loop intervention method that blends human corrective intent with autonomous policy execution to avoid gesture jumps during bimanual dexterous manipulation. Compared with direct teleoperation takeover, HandITL reduces takeover jitter by 99.8% and preserves robust post-takeover manipulation, reducing grasp failures by 87.5% and mean completion time by 19.1%. We validate HandITL on tasks requiring bimanual coordination, tool use, and fine-grained long-horizon manipulation. When used to collect intervention data for policy refinement, HandITL yields policies that outperform those trained with standard teleoperation data by 19% on average across three long-horizon dexterous tasks.