DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

作者: Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian

分类: cs.RO, cs.AI

发布日期: 2026-03-10

备注: 9 pages, 5 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

DexHiL：用于灵巧操作中VLA模型人机协同后训练框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 人机协同 视觉-语言-动作模型 后训练 机器人学习

📋 核心要点

现有的灵巧操作VLA系统在可靠性和适应性方面存在不足，难以直接应用于复杂下游任务。
DexHiL框架通过集成手臂-手部人机协同，并引入干预感知采样策略，提升VLA模型的后训练效果。
真实机器人实验表明，DexHiL框架显著提升了灵巧操作任务的成功率，平均超过离线微调基线25%。

📝 摘要（中文）

视觉-语言-动作（VLA）模型在机器人操作中展现了良好的泛化能力，但将其部署到特定且复杂的下游任务仍需有效的后训练。人机协同（HiL）学习已被证明是改进机器人策略的强大机制。然而，将这种范式扩展到灵巧操作仍然具有挑战性：多指控制是高维的、接触密集的，并且执行分布与标准手臂运动明显不同，导致现有的灵巧VLA系统在可靠性和适应性方面受到限制。我们提出了DexHiL，这是第一个用于灵巧VLA模型的集成手臂-手部人机协同框架，支持在单个系统中对手臂和灵巧手进行协调干预。DexHiL引入了一种干预感知的数据采样策略，该策略优先考虑用于后训练的校正片段，以及一个轻量级的遥操作界面，支持在执行过程中进行即时的人工校正。真实机器人实验表明，DexHiL是一个有效的后训练框架，可以实现性能的显著提升，在不同任务中的成功率平均超过标准离线微调基线25%。

🔬 方法详解

问题定义：论文旨在解决灵巧操作中，视觉-语言-动作（VLA）模型在部署到特定复杂下游任务时，由于多指控制的高维度、接触密集特性以及与标准手臂运动的差异，导致现有系统可靠性和适应性不足的问题。现有方法主要依赖离线微调，无法有效利用人类专家的知识进行纠正和优化。

核心思路：论文的核心思路是构建一个人机协同（HiL）框架，允许人类专家在机器人执行任务的过程中进行实时干预和纠正。通过收集这些干预数据，并利用干预感知的数据采样策略，优先训练模型在容易出错的环节，从而提高模型的性能和泛化能力。

技术框架：DexHiL框架包含以下几个主要模块：1) VLA模型：作为基础的控制策略。2) 遥操作界面：允许人类专家实时控制机器人的手臂和灵巧手。3) 干预感知数据采样模块：根据人类干预的频率和幅度，选择性地收集和利用数据。4) 后训练模块：利用收集到的数据对VLA模型进行微调，提高其在特定任务上的性能。

关键创新：论文的关键创新在于：1) 首次提出了一个集成手臂-手部人机协同框架，用于灵巧VLA模型的后训练。2) 引入了一种干预感知的数据采样策略，能够更有效地利用人类专家的知识。3) 设计了一个轻量级的遥操作界面，方便人类专家进行实时干预。

关键设计：干预感知数据采样策略是关键设计之一。具体来说，该策略会优先选择人类干预频率高、干预幅度大的片段进行训练。此外，遥操作界面的设计也至关重要，需要保证人类专家能够方便、准确地控制机器人的手臂和灵巧手。损失函数方面，可能采用了模仿学习或强化学习相关的损失函数，以最小化机器人行为与人类干预之间的差异（具体细节未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DexHiL框架在灵巧操作任务中取得了显著的性能提升。与标准的离线微调基线相比，DexHiL框架在不同任务中的成功率平均提高了25%。这表明，人机协同和干预感知的数据采样策略能够有效地提高VLA模型的性能。

🎯 应用场景

DexHiL框架可应用于各种需要灵巧操作的机器人任务，例如：精密装配、医疗手术、家庭服务等。通过人机协同的方式，可以显著提高机器人在复杂环境中的适应性和可靠性，降低部署成本，加速机器人技术的实际应用。

📄 摘要（原文）

While Vision-Language-Action (VLA) models have demonstrated promising generalization capabilities in robotic manipulation, deploying them on specific and complex downstream tasks still demands effective post-training. In parallel, Human-in-the-Loop (HiL) learning has proven to be a powerful mechanism for refining robot policies. However, extending this paradigm to dexterous manipulation remains challenging: multi-finger control is high-dimensional, contact-intensive, and exhibits execution distributions that differ markedly from standard arm motions, leaving existing dexterous VLA systems limited in reliability and adaptability. We present DexHiL, the first integrated arm-hand human-in-the-loop framework for dexterous VLA models, enabling coordinated interventions over the arm and the dexterous hand within a single system. DexHiL introduces an intervention-aware data sampling strategy that prioritizes corrective segments for post-training, alongside a lightweight teleoperation interface that supports instantaneous human corrections during execution. Real-robot experiments demonstrate that DexHiL serves as an effective post-training framework, yielding a substantial performance leap, outperforming standard offline-only fine-tuning baselines by an average of 25% in success rates across distinct tasks. Project page: https://chenzhongxi-sjtu.github.io/dexhil/

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理