Your Model Already Knows: Attention-Guided Safety Filter for Vision-Language-Action Models

📄 arXiv: 2606.09749v1 📥 PDF

作者: Seongbin Park, Fan Zhang, Baharan Mirzasoleiman, Shahriar Talebi, Nader Sehatbakhsh

分类: cs.RO, cs.LG

发布日期: 2026-06-08

备注: Under review


💡 一句话要点

提出基于注意力引导的安全过滤器以解决VLA模型的碰撞问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 安全过滤器 碰撞避免 实时跟踪 控制障碍函数 机器人操作 多模态学习

📋 核心要点

  1. 现有的VLA模型在处理与任务无关的物体时缺乏碰撞避免的保障,导致安全性不足。
  2. 论文提出了一种基于VLA模型注意力头的无训练安全过滤框架,能够实时识别目标并避免碰撞。
  3. 在SafeLIBERO基准上,动态环境中该方法的表现比传统预言机提高了43%,显示出显著的性能提升。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在多种机器人操作任务中表现出色,但在处理与任务无关的物体碰撞时缺乏保障。现有的安全过滤器通过查询视觉-语言模型(VLM)来识别障碍物,但速度较慢且只能在初始化时调用,无法跟踪移动障碍物。本文发现VLA模型中的少量注意力头能够可靠地定位策略意图接近的目标,提出了一种无训练的安全框架,通过在每一步获取注意力头的活动目标,将场景的其余部分视为障碍物,并将其输入控制障碍函数(CBF)过滤器。结合轻量级实时物体跟踪器,该方法实现了对非静态障碍物的碰撞避免。实验表明,在动态环境中,该方法的性能比使用特权模拟器状态的预言机提高了43%。

🔬 方法详解

问题定义:本文旨在解决VLA模型在执行任务时无法有效避免与场景中非任务相关物体碰撞的问题。现有的安全过滤器依赖于视觉-语言模型(VLM)进行障碍物识别,但速度较慢且无法实时跟踪移动障碍物。

核心思路:论文的核心思路是利用VLA模型中的少量注意力头来实时定位目标物体,并将场景中其他部分视为障碍物,从而实现无训练的安全过滤。通过这种方式,能够在每个控制步骤中动态更新障碍物信息。

技术框架:整体架构包括两个主要模块:一是从VLA模型中提取注意力头以获取目标物体,二是将识别到的障碍物信息输入到控制障碍函数(CBF)过滤器中。结合轻量级实时物体跟踪器,形成完整的碰撞避免系统。

关键创新:最重要的技术创新在于利用VLA模型内部的注意力机制进行实时目标识别,而非依赖外部的VLM查询。这种方法显著提高了处理速度和实时性。

关键设计:在设计中,注意力头的选择和目标提取过程是关键,确保能够准确识别意图接近的目标。同时,控制障碍函数的设计也至关重要,以确保在动态环境中有效避免碰撞。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在动态环境中,提出的方法相比于使用特权模拟器状态的预言机,平均提升了43%的性能。这一显著提升表明,VLA模型内部的感知信号可以有效用于实时安全过滤,具有重要的实际应用价值。

🎯 应用场景

该研究的潜在应用领域包括自主机器人、智能家居和工业自动化等场景。在这些领域,实时的碰撞避免能力能够显著提高机器人操作的安全性和效率,推动智能机器人技术的实际应用和发展。未来,该方法还可能扩展到更复杂的多模态交互任务中。

📄 摘要(原文)

Vision-Language-Action (VLA) models have demonstrated impressive end-to-end performance across a variety of robotic manipulation tasks. However, these policies offer no guarantees against collisions with task-irrelevant objects in the scene. Existing safety filters sidestep this problem by querying a vision-language model (VLM) to identify obstacles and their locations. This, however, is too slow to run in the control loop and can only be invoked at episode initialization, leaving the filter unable to track moving obstacles. We discover that a small number of attention heads within a VLA model reliably localize the object the policy intends to approach. These heads can be exploited within a training-free safety framework that obtains the active target from the attention heads at every step, treats the remainder of the scene as obstacles, and feeds these into a Control Barrier Function (CBF) filter. Together with a lightweight real-time object tracker, this allows for collision avoidance for non-static obstacles. We evaluate our framework on SafeLIBERO, which we extend with moving obstacles. On the original static benchmark, our method performs comparably to an oracle that uses privileged simulator state to identify the target, emulating a VLM-based identification step run once at episode initialization. On the dynamic variant, where the oracle's init-time target assignment becomes stale, our method substantially outperforms it by 43%, on average. Our findings suggest that the perceptual signals needed for real-time safety filtering are already present within VLA policies and can be exploited without additional training or heavy auxiliary models.