VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring
作者: Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu
分类: cs.CV, cs.LG, cs.RO
发布日期: 2026-06-02
备注: 18 pages, 5 tables, 5 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出VLESA以解决人类活动监测中的安全问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人类活动监测 安全干预 视觉-语言融合 意图识别 实时监测 机器学习 深度学习
📋 核心要点
- 核心问题:现有方法在监测人类活动时未能有效考虑行为的意图和上下文,导致安全干预不足。
- 方法要点:VLESA通过结合视觉和语言信息,实时监测活动并在危险行为预测时进行干预,采用目标条件的安全Q过滤器。
- 实验或效果:在ASIMOV-2.0基准测试中,VLESA的干预准确率显著高于基线,且安全性提升超过41个百分点。
📝 摘要(中文)
随着人工智能系统在物理任务中对人类的辅助作用日益增强,确保安全性变得至关重要,因为物理行为的后果是即时且不可逆的。本文介绍了视觉-语言具身安全代理(VLESA),该框架通过自我中心视频监测人类活动,并在预测到危险行为时触发实时安全干预。VLESA解决了意图依赖的安全性问题,即相同的行为在不同上下文中可能是安全或危险的。我们引入了一种将自我中心帧与目标条件安全注释配对的数据集,利用GRPO训练的目标条件安全Q过滤器评估行为的安全性,而无需重新训练。此外,提出了一种意图-行为预测代理,能够从视频中共同推断目标和预测未来行为。在ASIMOV-2.0基准测试中,VLESA在准确的真实帧上实现了更高的干预准确率,而GRPO训练的Q过滤器通过目标条件约束解码将行为安全性提高了41个百分点。代码可在https://github.com/HanjiangHu/VLESA获取。
🔬 方法详解
问题定义:本文旨在解决在监测人类活动时,如何有效识别和干预潜在危险行为的问题。现有方法往往忽视了行为的意图和上下文,导致安全干预的效果不佳。
核心思路:VLESA的核心思路是通过结合视觉和语言信息,实时监测人类活动,并在预测到危险行为时触发安全干预。该方法特别关注意图依赖的安全性,即相同的行为在不同情境下可能具有不同的安全性。
技术框架:VLESA的整体架构包括两个主要模块:目标条件安全Q过滤器和意图-行为预测代理。前者用于评估行为的安全性,后者则负责从视频中推断目标和预测未来行为。
关键创新:VLESA的主要创新在于引入了目标条件的安全Q过滤器,能够在不重新训练的情况下评估行为的安全性,这与传统方法有本质区别。
关键设计:在设计中,使用了GRPO算法进行Q过滤器的训练,并结合目标条件约束解码来提升行为的安全性。具体的参数设置和损失函数设计也经过精心调整,以确保模型的有效性和准确性。
🖼️ 关键图片
📊 实验亮点
在ASIMOV-2.0基准测试中,VLESA在准确的真实帧上实现了更高的干预准确率,相较于基线方法有显著提升。同时,GRPO训练的Q过滤器通过目标条件约束解码将行为安全性提高了41个百分点,展示了其在安全干预中的有效性。
🎯 应用场景
VLESA的研究成果具有广泛的应用潜力,特别是在智能家居、工业安全和人机协作等领域。通过实时监测和干预,能够有效降低事故发生的风险,提高人类在复杂环境中的安全性。未来,该技术还可能扩展到更多的智能系统中,提升人机交互的安全性和可靠性。
📄 摘要(原文)
As AI systems increasingly assist humans in physical tasks, ensuring safety becomes paramount -- physical actions carry immediate and irreversible consequences that digital errors do not. We introduce the Vision-Language Embodied Safety Agent (VLESA), a framework that monitors human activities from egocentric video and triggers real-time safety interventions when dangerous actions are predicted. VLESA addresses intent-dependent safety where identical actions can be safe or dangerous depending on context. A dataset pairing egocentric frames with goal-conditioned safety annotations is introduced, enabling a goal-conditioned safety Q-filter trained via GRPO that evaluates actions with respect to inferred intent without retraining. On top of that, an intent-action prediction agent is proposed to jointly infer goals and predict future actions from video. On the ASIMOV-2.0 benchmark, VLESA achieves higher intervention accuracy at the exact ground-truth frame compared to baselines, while the GRPO-trained Q-filter improves action safety by over 41 percentage points through goal-conditioned constrained decoding. Code is available at https://github.com/HanjiangHu/VLESA.