HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing

作者: Konstantin Gubernatorov, Mikhail Sannikov, Ilya Mikhalchuk, Egor Kuznetsov, Makar Artemov, Ogunwoye Faith Ouwatobi, Marcelino Fernando, Artem Asanov, Ziang Guo, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2026-03-16

💡 一句话要点

提出HapticVLA，无需推理时触觉传感实现富接触操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 触觉蒸馏 机器人操作 流匹配 安全感知 离线学习 富接触操作

📋 核心要点

现有VLA架构依赖触觉传感器进行灵巧操作，但增加了成本和降低了平台间的可复现性。
HapticVLA通过离线学习触觉感知操作，并在推理时不依赖直接触觉反馈，降低了硬件依赖。
实验表明，HapticVLA在真实场景中平均成功率达86.7%，优于依赖触觉反馈的基线VLA。

📝 摘要（中文）

本文提出HapticVLA，一种视觉-语言-动作模型，旨在无需推理时触觉传感即可实现富接触操作。该方法包含两个紧密耦合的阶段：安全感知奖励加权流匹配（SA-RWFM）和触觉蒸馏（TD）。SA-RWFM训练一个流匹配动作专家，该专家结合了预先计算的、安全感知的触觉奖励，以惩罚过度抓握力和次优抓握轨迹。TD进一步将这种触觉感知能力转移到传统的VLA中：我们从SA-RWFM教师模型中提取一个紧凑的触觉token，并训练一个学生VLA来预测来自视觉和状态模态的token，从而在推理时无需板载触觉传感器即可生成触觉感知的动作。这种设计在VLA中保留了富接触的触觉感知推理，同时消除了部署期间对板载触觉传感器的需求。在真实世界的实验中，HapticVLA实现了86.7%的平均成功率，始终优于基线VLA，包括在推理期间提供直接触觉反馈的版本。

🔬 方法详解

问题定义：现有的视觉-语言-动作（VLA）模型在处理富接触操作时，通常依赖于昂贵的触觉传感器，这限制了其在不同机器人平台上的通用性和可扩展性。痛点在于，如何在不依赖实时触觉反馈的情况下，使机器人能够安全、有效地执行需要精细触觉感知的操作。

核心思路：HapticVLA的核心思路是通过离线学习的方式，将触觉感知能力“蒸馏”到VLA模型中，使其在推理阶段无需依赖触觉传感器也能执行任务。通过安全感知奖励加权流匹配（SA-RWFM）训练一个触觉感知的动作专家，然后使用触觉蒸馏（TD）将该专家的知识迁移到VLA模型中。

技术框架：HapticVLA包含两个主要阶段：SA-RWFM和TD。首先，SA-RWFM训练一个流匹配动作专家，该专家通过预计算的安全感知触觉奖励来优化抓取动作，避免过度用力或不安全的轨迹。然后，TD从SA-RWFM教师模型中提取一个紧凑的触觉token，并训练一个学生VLA模型，使其能够仅通过视觉和状态信息预测该token。最终，学生VLA模型可以在推理时生成触觉感知的动作，而无需触觉传感器。

关键创新：HapticVLA的关键创新在于，它能够在不依赖实时触觉反馈的情况下，使VLA模型具备触觉感知能力。通过SA-RWFM和TD的结合，实现了触觉知识的有效迁移，从而降低了对硬件的依赖，提高了模型的泛化能力。与现有方法相比，HapticVLA无需在推理时使用触觉传感器，降低了成本和复杂性。

关键设计：SA-RWFM使用奖励加权流匹配来训练动作专家，其中奖励函数的设计至关重要，需要仔细平衡安全性和任务完成度。TD阶段的关键在于如何有效地提取和表示触觉token，以及如何训练学生VLA模型来准确预测该token。具体的网络结构和损失函数选择需要根据具体任务进行调整。未知：论文中是否使用了特定的网络结构或损失函数，以及具体的参数设置。

🖼️ 关键图片

📊 实验亮点

HapticVLA在真实世界实验中取得了显著成果，平均成功率达到86.7%，显著优于基线VLA模型。值得注意的是，HapticVLA甚至超越了在推理阶段提供直接触觉反馈的VLA模型，这表明通过离线学习和触觉蒸馏，可以有效地将触觉感知能力融入到VLA模型中，从而实现更鲁棒和高效的操作。

🎯 应用场景

HapticVLA在机器人操作领域具有广泛的应用前景，例如在家庭服务机器人中进行精细物品操作、在工业自动化中进行装配和质量检测、以及在医疗机器人中进行微创手术等。该研究降低了对昂贵触觉传感器的依赖，有望推动机器人技术在更多场景中的应用，并促进人机协作的安全性。

📄 摘要（原文）

Tactile sensing is a crucial capability for Vision-Language-Action (VLA) architectures, as it enables dexterous and safe manipulation in contact-rich tasks. However, reliance on dedicated tactile hardware increases cost and reduces reproducibility across robotic platforms. We argue that tactile-aware manipulation can be learned offline and deployed without direct haptic feedback at inference. To this end, we present HapticVLA, which proceeds in two tightly coupled stages: Safety-Aware Reward-Weighted Flow Matching (SA-RWFM) and Tactile Distillation (TD). SA-RWFM trains a flow-matching action expert that incorporates precomputed, safety-aware tactile rewards penalizing excessive grasping force and suboptimal grasping trajectories. TD further transfers this tactile-aware capability into a conventional VLA: we distill a compact tactile token from the SA-RWFM teacher and train a student VLA to predict that token from vision and state modalities, enabling tactile-aware action generation at inference without requiring on-board tactile sensors. This design preserves contact-rich tactile-aware reasoning within VLA while removing the need for on-board tactile sensors during deployment. On real-world experiments, HapticVLA achieves a mean success rate of 86.7%, consistently outperforming baseline VLAs - including versions provided with direct tactile feedback during inference.

HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理