HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models
作者: Zixing Chen, Yifeng Gao, Li Wang, Yunhan Zhao, Yi Liu, Jiayu Li, Xiang Zheng, Zuxuan Wu, Cong Wang, Xingjun Ma, Yu-Gang Jiang
分类: cs.RO
发布日期: 2026-04-14
备注: Submitted to conference; 12 pages, 8 figures, including supplementary material
💡 一句话要点
HazardArena:评估视觉-语言-动作模型中的语义安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 语义安全 机器人安全 风险评估 基准测试
📋 核心要点
- 现有VLA模型评估侧重动作执行成功率,忽略了动作策略与视觉-语言语义的耦合,导致潜在的安全风险。
- 提出HazardArena基准,包含安全/不安全双生场景,用于评估VLA模型在风险环境下的语义安全性。
- 引入安全选项层,利用语义属性或视觉-语言判断约束动作执行,有效减少不安全行为,同时保持任务性能。
📝 摘要(中文)
视觉-语言-动作(VLA)模型从视觉-语言骨干网络继承了丰富的世界知识,并通过动作演示获得了可执行的技能。然而,现有的评估主要集中在动作执行的成功率上,使得动作策略与视觉-语言语义松散耦合。这种解耦暴露了一个系统性的漏洞,即正确的动作执行可能导致语义风险下的不安全结果。为了揭示这一漏洞,我们引入了HazardArena,这是一个旨在评估VLA在受控但具有风险的环境中语义安全性的基准。HazardArena由安全/不安全双生场景构成,这些场景共享匹配的对象、布局和动作要求,仅在决定动作是否安全的语义上下文中存在差异。我们发现,专门在安全场景中训练的VLA模型在相应的非安全场景中进行评估时,通常无法安全地执行动作。HazardArena包括2000多个资产和40个风险敏感任务,涵盖了基于既定机器人安全标准的7个真实世界风险类别。为了缓解这一漏洞,我们提出了一种无需训练的安全选项层,该层使用语义属性或视觉-语言判断来约束动作执行,从而在对任务性能影响最小的情况下,大幅减少不安全行为。我们希望HazardArena能够强调重新思考如何在VLA扩展到实际部署时评估和加强语义安全性的必要性。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在实际部署中存在语义安全问题。尽管模型在训练环境中表现良好,但在面对相似但具有潜在危险的场景时,可能因为缺乏对语义信息的深入理解而做出不安全的动作。现有评估方法主要关注动作执行的成功率,忽略了语义上下文对安全性的影响,导致模型在语义风险下存在漏洞。
核心思路:核心思路是构建一个包含安全和不安全“双生”场景的基准测试集,这些场景在视觉和动作需求上相似,但语义上下文决定了动作的安全性。通过对比模型在安全和不安全场景中的表现,可以有效评估其语义安全性。此外,提出一种无需训练的安全选项层,利用语义信息约束动作执行,从而提高模型的安全性。
技术框架:HazardArena基准包含超过2000个资产和40个风险敏感任务,涵盖7个真实世界风险类别。每个任务都包含一个安全场景和一个对应的非安全场景。VLA模型首先在安全场景上进行训练,然后在安全和非安全场景上进行评估。安全选项层作为一个独立的模块,可以添加到现有的VLA模型中。该层使用语义属性或视觉-语言判断来评估动作的安全性,并根据评估结果选择是否执行该动作。
关键创新:关键创新在于提出了HazardArena基准,它提供了一种系统化的方法来评估VLA模型的语义安全性。与传统的评估方法相比,HazardArena更加关注语义上下文对安全性的影响,能够更有效地发现模型中的安全漏洞。此外,提出的安全选项层是一种无需训练的方法,可以方便地添加到现有的VLA模型中,从而提高模型的安全性。
关键设计:HazardArena中的双生场景设计保证了视觉和动作需求的一致性,从而可以更准确地评估语义上下文对安全性的影响。安全选项层可以使用不同的语义信息来源,例如语义属性或视觉-语言判断。语义属性可以从场景中提取,例如物体的类型和位置。视觉-语言判断可以使用预训练的视觉-语言模型来评估动作的安全性。安全选项层的输出是一个概率值,表示动作的安全性。该概率值可以用于调整动作的执行概率,从而减少不安全行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在安全场景中训练的VLA模型在HazardArena的非安全场景中表现不佳,验证了语义安全漏洞的存在。引入安全选项层后,不安全行为显著减少,同时对任务性能的影响很小。例如,在某些任务中,不安全行为减少了50%以上,而任务完成率仅下降了不到5%。
🎯 应用场景
该研究成果可应用于机器人、自动驾驶、智能家居等领域,提升智能系统在复杂环境中的安全性。通过HazardArena基准,可以有效评估和改进VLA模型的语义安全性能,降低潜在风险。未来,该研究可推动安全AI的发展,促进智能系统在现实世界中的广泛应用。
📄 摘要(原文)
Vision-Language-Action (VLA) models inherit rich world knowledge from vision-language backbones and acquire executable skills via action demonstrations. However, existing evaluations largely focus on action execution success, leaving action policies loosely coupled with visual-linguistic semantics. This decoupling exposes a systematic vulnerability whereby correct action execution may induce unsafe outcomes under semantic risk. To expose this vulnerability, we introduce HazardArena, a benchmark designed to evaluate semantic safety in VLAs under controlled yet risk-bearing contexts. HazardArena is constructed from safe/unsafe twin scenarios that share matched objects, layouts, and action requirements, differing only in the semantic context that determines whether an action is unsafe. We find that VLA models trained exclusively on safe scenarios often fail to behave safely when evaluated in their corresponding unsafe counterparts. HazardArena includes over 2,000 assets and 40 risk-sensitive tasks spanning 7 real-world risk categories grounded in established robotic safety standards. To mitigate this vulnerability, we propose a training-free Safety Option Layer that constrains action execution using semantic attributes or a vision-language judge, substantially reducing unsafe behaviors with minimal impact on task performance. We hope that HazardArena highlights the need to rethink how semantic safety is evaluated and enforced in VLAs as they scale toward real-world deployment.