VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring

📄 arXiv: 2606.03954v1 📥 PDF

作者: Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu

分类: cs.CV, cs.LG, cs.RO

发布日期: 2026-06-02

备注: 18 pages, 5 tables, 5 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出VLESA以解决人类活动监测中的安全问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人类活动监测 安全干预 视觉-语言融合 意图识别 实时监测 机器学习 深度学习

📋 核心要点

  1. 核心问题:现有方法在监测人类活动时未能有效考虑行为的意图和上下文,导致安全干预不足。
  2. 方法要点:VLESA通过结合视觉和语言信息,实时监测活动并在危险行为预测时进行干预,采用目标条件的安全Q过滤器。
  3. 实验或效果:在ASIMOV-2.0基准测试中,VLESA的干预准确率显著高于基线,且安全性提升超过41个百分点。

📝 摘要(中文)

随着人工智能系统在物理任务中对人类的辅助作用日益增强,确保安全性变得至关重要,因为物理行为的后果是即时且不可逆的。本文介绍了视觉-语言具身安全代理(VLESA),该框架通过自我中心视频监测人类活动,并在预测到危险行为时触发实时安全干预。VLESA解决了意图依赖的安全性问题,即相同的行为在不同上下文中可能是安全或危险的。我们引入了一种将自我中心帧与目标条件安全注释配对的数据集,利用GRPO训练的目标条件安全Q过滤器评估行为的安全性,而无需重新训练。此外,提出了一种意图-行为预测代理,能够从视频中共同推断目标和预测未来行为。在ASIMOV-2.0基准测试中,VLESA在准确的真实帧上实现了更高的干预准确率,而GRPO训练的Q过滤器通过目标条件约束解码将行为安全性提高了41个百分点。代码可在https://github.com/HanjiangHu/VLESA获取。

🔬 方法详解

问题定义:本文旨在解决在监测人类活动时,如何有效识别和干预潜在危险行为的问题。现有方法往往忽视了行为的意图和上下文,导致安全干预的效果不佳。

核心思路:VLESA的核心思路是通过结合视觉和语言信息,实时监测人类活动,并在预测到危险行为时触发安全干预。该方法特别关注意图依赖的安全性,即相同的行为在不同情境下可能具有不同的安全性。

技术框架:VLESA的整体架构包括两个主要模块:目标条件安全Q过滤器和意图-行为预测代理。前者用于评估行为的安全性,后者则负责从视频中推断目标和预测未来行为。

关键创新:VLESA的主要创新在于引入了目标条件的安全Q过滤器,能够在不重新训练的情况下评估行为的安全性,这与传统方法有本质区别。

关键设计:在设计中,使用了GRPO算法进行Q过滤器的训练,并结合目标条件约束解码来提升行为的安全性。具体的参数设置和损失函数设计也经过精心调整,以确保模型的有效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ASIMOV-2.0基准测试中,VLESA在准确的真实帧上实现了更高的干预准确率,相较于基线方法有显著提升。同时,GRPO训练的Q过滤器通过目标条件约束解码将行为安全性提高了41个百分点,展示了其在安全干预中的有效性。

🎯 应用场景

VLESA的研究成果具有广泛的应用潜力,特别是在智能家居、工业安全和人机协作等领域。通过实时监测和干预,能够有效降低事故发生的风险,提高人类在复杂环境中的安全性。未来,该技术还可能扩展到更多的智能系统中,提升人机交互的安全性和可靠性。

📄 摘要(原文)

As AI systems increasingly assist humans in physical tasks, ensuring safety becomes paramount -- physical actions carry immediate and irreversible consequences that digital errors do not. We introduce the Vision-Language Embodied Safety Agent (VLESA), a framework that monitors human activities from egocentric video and triggers real-time safety interventions when dangerous actions are predicted. VLESA addresses intent-dependent safety where identical actions can be safe or dangerous depending on context. A dataset pairing egocentric frames with goal-conditioned safety annotations is introduced, enabling a goal-conditioned safety Q-filter trained via GRPO that evaluates actions with respect to inferred intent without retraining. On top of that, an intent-action prediction agent is proposed to jointly infer goals and predict future actions from video. On the ASIMOV-2.0 benchmark, VLESA achieves higher intervention accuracy at the exact ground-truth frame compared to baselines, while the GRPO-trained Q-filter improves action safety by over 41 percentage points through goal-conditioned constrained decoding. Code is available at https://github.com/HanjiangHu/VLESA.