ProbeAct: Probe-Guided Training-Free Failure Recovery in Vision-Language-Action Models

📄 arXiv: 2606.09740v1 📥 PDF

作者: Fan Zhang, Seongbin Park, Baharan Mirzasoleiman, Shariar Talebi, Nader Sehatbakhsh

分类: cs.RO

发布日期: 2026-06-08

备注: under review


💡 一句话要点

提出PROBEACT以解决VLA模型在操作失败时的恢复问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 机器人操作 失败恢复 实时干预 控制障碍函数 多目标跟踪 运动状态机

📋 核心要点

  1. 现有的VLA模型在面对光照变化、摄像头视角变化或初始状态微小变化时,缺乏必要的鲁棒性,常常导致操作失败。
  2. PROBEACT通过引入一个轻量级的多目标隐藏状态探针和对象无关的运动状态机,提供了一种无需额外训练的干预机制来恢复失败。
  3. 在LIBERO-plus基准测试中,PROBEACT将OpenVLA-OFT模型的成功率从69.6%提升至74.1%,展示了其广泛的适用性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在其训练分布内表现出色,但在面对环境扰动时的泛化能力有限,常常出现失败。为此,本文提出了PROBEACT,一个无需训练的运行时干预框架,能够在不修改模型权重或额外演示的情况下,检测并恢复抓取和放置失败。PROBEACT结合了多目标隐藏状态探针、对象无关的运动状态机和分层控制障碍函数(CBF)过滤器,作为一个即插即用的干预循环,显著提高了OpenVLA-OFT模型的成功率。

🔬 方法详解

问题定义:本文旨在解决VLA模型在执行任务时因环境变化而导致的抓取和放置失败问题。现有方法在处理这些扰动时表现不佳,缺乏有效的恢复机制。

核心思路:PROBEACT的核心思想是通过实时检测和干预来恢复失败,而不需要对模型进行再训练或额外演示。该方法利用现有的模型特征进行状态预测和故障检测。

技术框架:PROBEACT的整体架构包括三个主要模块:多目标隐藏状态探针、对象无关的运动状态机和分层控制障碍函数(CBF)过滤器。探针用于预测任务相关对象的3D位置,运动状态机用于检测失败,而CBF过滤器则用于最小化干预对原有行为的影响。

关键创新:最重要的创新在于提出了一种无需训练的干预机制,能够在不修改模型权重的情况下,实时检测和恢复操作失败。这一方法与传统的依赖于再训练的策略本质上不同。

关键设计:在设计中,探针采用了匈牙利算法进行多对象身份跟踪,运动状态机仅依赖于夹持器内部信号和末端执行器运动学,CBF过滤器则将重复失败位置编码为软安全集约束,以确保干预的有效性和安全性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在实验中,PROBEACT显著提高了OpenVLA-OFT模型的成功率,从69.6%提升至74.1%。这一提升表明,PROBEACT作为一个通用的安全网,能够有效增强VLA模型在实际应用中的鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化生产线和服务机器人等场景,能够显著提升机器人在复杂环境中的操作可靠性。未来,PROBEACT有望与更多的VLA模型结合,进一步拓展其应用范围。

📄 摘要(原文)

Vision-Language-Action (VLA) models demonstrate strong perfor-1 mance on language-conditioned robotic manipulation within their training dis-2 tribution, yet their generalization capabilities remain fundamentally limited. They3 lack the robustness required to handle perturbations, frequently failing when con-4 fronted with lighting changes, altered camera viewpoints, or small initial-state5 variations. We propose PROBEACT, a training-free runtime intervention frame-6 work that detects and recovers from grasping and placement failures in pre-7 trained VLA policies without modifying their weights or requiring additional8 demonstrations. PROBEACT combines three components: (i) a lightweight multi-9 target hidden-state probe that predicts the 3D positions of task-relevant objects10 from intermediate VLA features, with Hungarian-matched identity tracking for11 multi-object scenes; (ii) an object-agnostic kinematic state machine that detects12 grasp, transport, and placement failures using only gripper-internal signals and13 end-effector kinematics; and (iii) a hierarchical Control Barrier Function (CBF)14 filter that encodes repeated-failure locations as soft safe-set constraints, mini-15 mally correcting VLA actions while preserving baseline behavior. As a plug-and-16 play, training-free intervention loop, PROBEACT is orthogonal to existing train-17 ing pipelines. Evaluated on the LIBERO-plus benchmark, our framework acts as18 a universal safety net, improving the success rate of the OpenVLA-OFT model19 from 69.6% to 74.1%, while demonstrating broad applicability to both base and20 fine-tuned VLA policies.