HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing
作者: Konstantin Gubernatorov, Mikhail Sannikov, Ilya Mikhalchuk, Egor Kuznetsov, Makar Artemov, Ogunwoye Faith Ouwatobi, Marcelino Fernando, Artem Asanov, Ziang Guo, Dzmitry Tsetserukou
分类: cs.RO
发布日期: 2026-03-16
💡 一句话要点
提出HapticVLA,无需推理时触觉传感实现富接触操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 触觉蒸馏 机器人操作 流匹配 安全感知 离线学习 富接触操作
📋 核心要点
- 现有VLA架构依赖触觉传感器进行灵巧操作,但增加了成本和降低了平台间的可复现性。
- HapticVLA通过离线学习触觉感知操作,并在推理时不依赖直接触觉反馈,降低了硬件依赖。
- 实验表明,HapticVLA在真实场景中平均成功率达86.7%,优于依赖触觉反馈的基线VLA。
📝 摘要(中文)
本文提出HapticVLA,一种视觉-语言-动作模型,旨在无需推理时触觉传感即可实现富接触操作。该方法包含两个紧密耦合的阶段:安全感知奖励加权流匹配(SA-RWFM)和触觉蒸馏(TD)。SA-RWFM训练一个流匹配动作专家,该专家结合了预先计算的、安全感知的触觉奖励,以惩罚过度抓握力和次优抓握轨迹。TD进一步将这种触觉感知能力转移到传统的VLA中:我们从SA-RWFM教师模型中提取一个紧凑的触觉token,并训练一个学生VLA来预测来自视觉和状态模态的token,从而在推理时无需板载触觉传感器即可生成触觉感知的动作。这种设计在VLA中保留了富接触的触觉感知推理,同时消除了部署期间对板载触觉传感器的需求。在真实世界的实验中,HapticVLA实现了86.7%的平均成功率,始终优于基线VLA,包括在推理期间提供直接触觉反馈的版本。
🔬 方法详解
问题定义:现有的视觉-语言-动作(VLA)模型在处理富接触操作时,通常依赖于昂贵的触觉传感器,这限制了其在不同机器人平台上的通用性和可扩展性。痛点在于,如何在不依赖实时触觉反馈的情况下,使机器人能够安全、有效地执行需要精细触觉感知的操作。
核心思路:HapticVLA的核心思路是通过离线学习的方式,将触觉感知能力“蒸馏”到VLA模型中,使其在推理阶段无需依赖触觉传感器也能执行任务。通过安全感知奖励加权流匹配(SA-RWFM)训练一个触觉感知的动作专家,然后使用触觉蒸馏(TD)将该专家的知识迁移到VLA模型中。
技术框架:HapticVLA包含两个主要阶段:SA-RWFM和TD。首先,SA-RWFM训练一个流匹配动作专家,该专家通过预计算的安全感知触觉奖励来优化抓取动作,避免过度用力或不安全的轨迹。然后,TD从SA-RWFM教师模型中提取一个紧凑的触觉token,并训练一个学生VLA模型,使其能够仅通过视觉和状态信息预测该token。最终,学生VLA模型可以在推理时生成触觉感知的动作,而无需触觉传感器。
关键创新:HapticVLA的关键创新在于,它能够在不依赖实时触觉反馈的情况下,使VLA模型具备触觉感知能力。通过SA-RWFM和TD的结合,实现了触觉知识的有效迁移,从而降低了对硬件的依赖,提高了模型的泛化能力。与现有方法相比,HapticVLA无需在推理时使用触觉传感器,降低了成本和复杂性。
关键设计:SA-RWFM使用奖励加权流匹配来训练动作专家,其中奖励函数的设计至关重要,需要仔细平衡安全性和任务完成度。TD阶段的关键在于如何有效地提取和表示触觉token,以及如何训练学生VLA模型来准确预测该token。具体的网络结构和损失函数选择需要根据具体任务进行调整。未知:论文中是否使用了特定的网络结构或损失函数,以及具体的参数设置。
🖼️ 关键图片
📊 实验亮点
HapticVLA在真实世界实验中取得了显著成果,平均成功率达到86.7%,显著优于基线VLA模型。值得注意的是,HapticVLA甚至超越了在推理阶段提供直接触觉反馈的VLA模型,这表明通过离线学习和触觉蒸馏,可以有效地将触觉感知能力融入到VLA模型中,从而实现更鲁棒和高效的操作。
🎯 应用场景
HapticVLA在机器人操作领域具有广泛的应用前景,例如在家庭服务机器人中进行精细物品操作、在工业自动化中进行装配和质量检测、以及在医疗机器人中进行微创手术等。该研究降低了对昂贵触觉传感器的依赖,有望推动机器人技术在更多场景中的应用,并促进人机协作的安全性。
📄 摘要(原文)
Tactile sensing is a crucial capability for Vision-Language-Action (VLA) architectures, as it enables dexterous and safe manipulation in contact-rich tasks. However, reliance on dedicated tactile hardware increases cost and reduces reproducibility across robotic platforms. We argue that tactile-aware manipulation can be learned offline and deployed without direct haptic feedback at inference. To this end, we present HapticVLA, which proceeds in two tightly coupled stages: Safety-Aware Reward-Weighted Flow Matching (SA-RWFM) and Tactile Distillation (TD). SA-RWFM trains a flow-matching action expert that incorporates precomputed, safety-aware tactile rewards penalizing excessive grasping force and suboptimal grasping trajectories. TD further transfers this tactile-aware capability into a conventional VLA: we distill a compact tactile token from the SA-RWFM teacher and train a student VLA to predict that token from vision and state modalities, enabling tactile-aware action generation at inference without requiring on-board tactile sensors. This design preserves contact-rich tactile-aware reasoning within VLA while removing the need for on-board tactile sensors during deployment. On real-world experiments, HapticVLA achieves a mean success rate of 86.7%, consistently outperforming baseline VLAs - including versions provided with direct tactile feedback during inference.