DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation
作者: Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian
分类: cs.RO, cs.AI
发布日期: 2026-03-10
备注: 9 pages, 5 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DexHiL:用于灵巧操作中VLA模型人机协同后训练框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 灵巧操作 人机协同 视觉-语言-动作模型 后训练 机器人学习
📋 核心要点
- 现有的灵巧操作VLA系统在可靠性和适应性方面存在不足,难以直接应用于复杂下游任务。
- DexHiL框架通过集成手臂-手部人机协同,并引入干预感知采样策略,提升VLA模型的后训练效果。
- 真实机器人实验表明,DexHiL框架显著提升了灵巧操作任务的成功率,平均超过离线微调基线25%。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人操作中展现了良好的泛化能力,但将其部署到特定且复杂的下游任务仍需有效的后训练。人机协同(HiL)学习已被证明是改进机器人策略的强大机制。然而,将这种范式扩展到灵巧操作仍然具有挑战性:多指控制是高维的、接触密集的,并且执行分布与标准手臂运动明显不同,导致现有的灵巧VLA系统在可靠性和适应性方面受到限制。我们提出了DexHiL,这是第一个用于灵巧VLA模型的集成手臂-手部人机协同框架,支持在单个系统中对手臂和灵巧手进行协调干预。DexHiL引入了一种干预感知的数据采样策略,该策略优先考虑用于后训练的校正片段,以及一个轻量级的遥操作界面,支持在执行过程中进行即时的人工校正。真实机器人实验表明,DexHiL是一个有效的后训练框架,可以实现性能的显著提升,在不同任务中的成功率平均超过标准离线微调基线25%。
🔬 方法详解
问题定义:论文旨在解决灵巧操作中,视觉-语言-动作(VLA)模型在部署到特定复杂下游任务时,由于多指控制的高维度、接触密集特性以及与标准手臂运动的差异,导致现有系统可靠性和适应性不足的问题。现有方法主要依赖离线微调,无法有效利用人类专家的知识进行纠正和优化。
核心思路:论文的核心思路是构建一个人机协同(HiL)框架,允许人类专家在机器人执行任务的过程中进行实时干预和纠正。通过收集这些干预数据,并利用干预感知的数据采样策略,优先训练模型在容易出错的环节,从而提高模型的性能和泛化能力。
技术框架:DexHiL框架包含以下几个主要模块:1) VLA模型:作为基础的控制策略。2) 遥操作界面:允许人类专家实时控制机器人的手臂和灵巧手。3) 干预感知数据采样模块:根据人类干预的频率和幅度,选择性地收集和利用数据。4) 后训练模块:利用收集到的数据对VLA模型进行微调,提高其在特定任务上的性能。
关键创新:论文的关键创新在于:1) 首次提出了一个集成手臂-手部人机协同框架,用于灵巧VLA模型的后训练。2) 引入了一种干预感知的数据采样策略,能够更有效地利用人类专家的知识。3) 设计了一个轻量级的遥操作界面,方便人类专家进行实时干预。
关键设计:干预感知数据采样策略是关键设计之一。具体来说,该策略会优先选择人类干预频率高、干预幅度大的片段进行训练。此外,遥操作界面的设计也至关重要,需要保证人类专家能够方便、准确地控制机器人的手臂和灵巧手。损失函数方面,可能采用了模仿学习或强化学习相关的损失函数,以最小化机器人行为与人类干预之间的差异(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DexHiL框架在灵巧操作任务中取得了显著的性能提升。与标准的离线微调基线相比,DexHiL框架在不同任务中的成功率平均提高了25%。这表明,人机协同和干预感知的数据采样策略能够有效地提高VLA模型的性能。
🎯 应用场景
DexHiL框架可应用于各种需要灵巧操作的机器人任务,例如:精密装配、医疗手术、家庭服务等。通过人机协同的方式,可以显著提高机器人在复杂环境中的适应性和可靠性,降低部署成本,加速机器人技术的实际应用。
📄 摘要(原文)
While Vision-Language-Action (VLA) models have demonstrated promising generalization capabilities in robotic manipulation, deploying them on specific and complex downstream tasks still demands effective post-training. In parallel, Human-in-the-Loop (HiL) learning has proven to be a powerful mechanism for refining robot policies. However, extending this paradigm to dexterous manipulation remains challenging: multi-finger control is high-dimensional, contact-intensive, and exhibits execution distributions that differ markedly from standard arm motions, leaving existing dexterous VLA systems limited in reliability and adaptability. We present DexHiL, the first integrated arm-hand human-in-the-loop framework for dexterous VLA models, enabling coordinated interventions over the arm and the dexterous hand within a single system. DexHiL introduces an intervention-aware data sampling strategy that prioritizes corrective segments for post-training, alongside a lightweight teleoperation interface that supports instantaneous human corrections during execution. Real-robot experiments demonstrate that DexHiL serves as an effective post-training framework, yielding a substantial performance leap, outperforming standard offline-only fine-tuning baselines by an average of 25% in success rates across distinct tasks. Project page: https://chenzhongxi-sjtu.github.io/dexhil/