VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring

作者: Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu

分类: cs.CV, cs.LG, cs.RO

发布日期: 2026-06-02

备注: 18 pages, 5 tables, 5 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出VLESA以解决人类活动监测中的安全问题

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 人类活动监测 安全干预 视觉-语言融合 意图识别 实时监测 机器学习 深度学习

📋 核心要点

核心问题：现有方法在监测人类活动时未能有效考虑行为的意图和上下文，导致安全干预不足。
方法要点：VLESA通过结合视觉和语言信息，实时监测活动并在危险行为预测时进行干预，采用目标条件的安全Q过滤器。
实验或效果：在ASIMOV-2.0基准测试中，VLESA的干预准确率显著高于基线，且安全性提升超过41个百分点。

📝 摘要（中文）

随着人工智能系统在物理任务中对人类的辅助作用日益增强，确保安全性变得至关重要，因为物理行为的后果是即时且不可逆的。本文介绍了视觉-语言具身安全代理（VLESA），该框架通过自我中心视频监测人类活动，并在预测到危险行为时触发实时安全干预。VLESA解决了意图依赖的安全性问题，即相同的行为在不同上下文中可能是安全或危险的。我们引入了一种将自我中心帧与目标条件安全注释配对的数据集，利用GRPO训练的目标条件安全Q过滤器评估行为的安全性，而无需重新训练。此外，提出了一种意图-行为预测代理，能够从视频中共同推断目标和预测未来行为。在ASIMOV-2.0基准测试中，VLESA在准确的真实帧上实现了更高的干预准确率，而GRPO训练的Q过滤器通过目标条件约束解码将行为安全性提高了41个百分点。代码可在https://github.com/HanjiangHu/VLESA获取。

🔬 方法详解

问题定义：本文旨在解决在监测人类活动时，如何有效识别和干预潜在危险行为的问题。现有方法往往忽视了行为的意图和上下文，导致安全干预的效果不佳。

核心思路：VLESA的核心思路是通过结合视觉和语言信息，实时监测人类活动，并在预测到危险行为时触发安全干预。该方法特别关注意图依赖的安全性，即相同的行为在不同情境下可能具有不同的安全性。

技术框架：VLESA的整体架构包括两个主要模块：目标条件安全Q过滤器和意图-行为预测代理。前者用于评估行为的安全性，后者则负责从视频中推断目标和预测未来行为。

关键创新：VLESA的主要创新在于引入了目标条件的安全Q过滤器，能够在不重新训练的情况下评估行为的安全性，这与传统方法有本质区别。

关键设计：在设计中，使用了GRPO算法进行Q过滤器的训练，并结合目标条件约束解码来提升行为的安全性。具体的参数设置和损失函数设计也经过精心调整，以确保模型的有效性和准确性。

🖼️ 关键图片

📊 实验亮点

在ASIMOV-2.0基准测试中，VLESA在准确的真实帧上实现了更高的干预准确率，相较于基线方法有显著提升。同时，GRPO训练的Q过滤器通过目标条件约束解码将行为安全性提高了41个百分点，展示了其在安全干预中的有效性。

🎯 应用场景

VLESA的研究成果具有广泛的应用潜力，特别是在智能家居、工业安全和人机协作等领域。通过实时监测和干预，能够有效降低事故发生的风险，提高人类在复杂环境中的安全性。未来，该技术还可能扩展到更多的智能系统中，提升人机交互的安全性和可靠性。

📄 摘要（原文）

As AI systems increasingly assist humans in physical tasks, ensuring safety becomes paramount -- physical actions carry immediate and irreversible consequences that digital errors do not. We introduce the Vision-Language Embodied Safety Agent (VLESA), a framework that monitors human activities from egocentric video and triggers real-time safety interventions when dangerous actions are predicted. VLESA addresses intent-dependent safety where identical actions can be safe or dangerous depending on context. A dataset pairing egocentric frames with goal-conditioned safety annotations is introduced, enabling a goal-conditioned safety Q-filter trained via GRPO that evaluates actions with respect to inferred intent without retraining. On top of that, an intent-action prediction agent is proposed to jointly infer goals and predict future actions from video. On the ASIMOV-2.0 benchmark, VLESA achieves higher intervention accuracy at the exact ground-truth frame compared to baselines, while the GRPO-trained Q-filter improves action safety by over 41 percentage points through goal-conditioned constrained decoding. Code is available at https://github.com/HanjiangHu/VLESA.

VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理