Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

作者: Seongheon Park, Wendi Li, Changdae Oh, Samuel Yeh, Zsolt Kira, Michael Hagenow, Sharon Li

分类: cs.RO, cs.AI

发布日期: 2026-05-29

💡 一句话要点

提出Hide-and-Seek框架，用于视觉-语言-动作模型（VLA）的运行时故障检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 故障检测 对比学习 机器人 运行时监控

📋 核心要点

现有VLA故障检测方法依赖昂贵的重采样或外部模型，或简单地将轨迹标签传播到每一步，忽略了故障信号的局部性。
Hide-and-Seek通过对比学习，从轨迹级别的粗略监督中学习，定位指示故障的关键动作，并提取时间结构化的故障信号。
实验表明，Hide-and-Seek在多个VLA策略和数据集上实现了最先进的故障检测性能，并具有良好的泛化能力。

📝 摘要（中文）

视觉-语言-动作（VLA）模型使机器人能够遵循自然语言指令并在各种任务中泛化，但它们仍然容易出现执行失败，从而影响现实部署中的可靠性。因此，在执行期间检测此类故障对于具身系统的稳健部署至关重要。现有的故障检测方法要么依赖于昂贵的动作重采样或外部模型，要么将轨迹级别的标签统一传播到每个时间步，从而模糊了局部化的故障信号。在本文中，我们提出了 extbf{Hide-and-Seek}，该框架将VLA故障检测公式化为一个粗略监督的学习问题。通过结合轨迹间和轨迹内对比目标，Hide-and-Seek定位了指示故障的动作，并仅从轨迹级别的监督中诱导出时间结构化的故障信号，而无需任何步骤级别的注释。我们在LIBERO、VLABench和一个真实世界的机器人平台上，针对三个具有代表性的VLA策略：OpenVLA、$π_0$和$π_{0.5}$，评估了Hide-and-Seek。我们的方法在保角预测下实现了最先进的多任务故障检测性能，具有实际的准确性-及时性权衡，并且可以很好地推广到已见和未见任务。

🔬 方法详解

问题定义：论文旨在解决VLA模型在实际部署中因执行失败而导致可靠性降低的问题。现有方法要么成本高昂（动作重采样或外部模型），要么无法精确定位故障发生的时间点（轨迹级别标签的简单传播），缺乏对故障信号的细粒度理解。

核心思路：Hide-and-Seek的核心思路是将VLA故障检测问题转化为一个粗略监督的对比学习问题。通过对比学习，模型能够学习到哪些动作与故障相关，从而定位故障发生的时间点，并提取出具有时间结构的故障信号。这种方法只需要轨迹级别的监督信息，无需步骤级别的标注，降低了标注成本。

技术框架：Hide-and-Seek框架主要包含两个对比学习目标：轨迹间对比和轨迹内对比。轨迹间对比旨在区分成功轨迹和失败轨迹，学习轨迹级别的故障特征。轨迹内对比旨在区分轨迹中指示故障的动作和正常动作，学习动作级别的故障特征。这两个对比目标共同作用，使得模型能够从粗略的轨迹级别监督中学习到细粒度的故障信号。

关键创新：Hide-and-Seek的关键创新在于它提出了一种新的学习范式，即从轨迹级别的粗略监督中学习细粒度的故障信号。与现有方法相比，Hide-and-Seek不需要昂贵的步骤级别标注，也避免了简单地将轨迹标签传播到每一步，从而能够更准确地定位故障发生的时间点。

关键设计：Hide-and-Seek使用对比损失函数来训练模型。轨迹间对比使用InfoNCE损失，旨在最大化成功轨迹之间的相似性，最小化成功轨迹和失败轨迹之间的相似性。轨迹内对比也使用InfoNCE损失，旨在最大化轨迹中正常动作之间的相似性，最小化正常动作和指示故障的动作之间的相似性。具体网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

Hide-and-Seek在LIBERO、VLABench和真实机器人平台上进行了评估，针对OpenVLA、$π_0$和$π_{0.5}$三个VLA策略，实现了最先进的多任务故障检测性能。该方法在保角预测下实现了实际的准确性-及时性权衡，并且可以很好地推广到已见和未见任务，表明其具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种机器人和自动化系统，提高其在复杂环境中的可靠性和安全性。例如，在自动驾驶、工业机器人、服务机器人等领域，通过实时检测和预测故障，可以及时采取纠正措施，避免事故发生，提高系统整体性能。此外，该方法还可以用于VLA模型的调试和改进，帮助开发者更好地理解模型的行为，并针对性地进行优化。

📄 摘要（原文）

Vision-Language-Action (VLA) models enable robots to follow natural language instructions and generalize across diverse tasks, but they remain vulnerable to execution failures that compromise reliability in real-world deployment. Detecting such failures during execution is therefore critical for the robust deployment of embodied systems. Existing failure detection methods either rely on expensive action resampling or external models, while alternatives propagate trajectory-level labels uniformly across every timestep, obscuring localized failure signals. In this paper, we propose \textbf{Hide-and-Seek}, a framework that formulates VLA failure detection as a coarsely supervised learning problem. By combining inter-trajectory and intra-trajectory contrastive objectives, Hide-and-Seek localizes failure-indicative actions and induces temporally structured failure signals from trajectory-level supervision alone, without any step-level annotation. We evaluate Hide-and-Seek on LIBERO, VLABench, and a real-world robotic platform across three representative VLA policies: OpenVLA, $π_0$, and $π_{0.5}$.Our method achieves state-of-the-art multi-task failure detection performance with a practical accuracy--timeliness trade-off under conformal prediction, and generalizes well to both seen and unseen tasks.

Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理