HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

作者: Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu

分类: cs.CV, cs.AI, cs.CR

发布日期: 2026-03-12

💡 一句话要点

提出HomeSafe-Bench基准测试，用于评估视觉-语言模型在家庭场景中不安全行为的检测能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言模型 不安全行为检测 家庭机器人 基准测试

📋 核心要点

现有安全评估主要集中于静态图像、文本或一般危害，无法充分评估家庭环境中动态不安全行为的检测。
提出HomeSafe-Bench基准测试，并设计分层双脑卫士（HD-Guard）架构，平衡推理效率与检测精度，实现实时安全监控。
实验表明HD-Guard在延迟和性能之间取得了更好的平衡，并分析了当前VLM在安全检测方面的瓶颈。

📝 摘要（中文）

本文提出HomeSafe-Bench，这是一个具有挑战性的基准测试，旨在评估视觉-语言模型（VLMs）在家庭场景中检测不安全行为的能力。与现有方法不同，HomeSafe-Bench专注于动态不安全行为检测，并针对家庭环境的特殊性。该基准通过结合物理模拟和先进的视频生成技术构建，包含六个功能区域的438个多样化案例，并具有细粒度的多维标注。此外，本文还提出了一种用于实时安全监控的分层流式架构——家庭安全分层双脑卫士（HD-Guard）。HD-Guard协调一个轻量级的FastBrain用于连续高频筛选，以及一个异步的大规模SlowBrain用于深度多模态推理，从而有效地平衡了推理效率和检测精度。评估结果表明，HD-Guard在延迟和性能之间实现了卓越的权衡，同时分析也揭示了当前基于VLM的安全检测中的关键瓶颈。

🔬 方法详解

问题定义：论文旨在解决家庭环境中，具身智能体（Embodied Agents）对不安全行为检测不足的问题。现有方法通常依赖于静态图像或文本信息，缺乏对动态场景的理解，并且通用性安全评估无法覆盖家庭环境的特殊风险，导致机器人可能做出危险动作。

核心思路：论文的核心思路是构建一个更贴近真实家庭场景的基准测试数据集HomeSafe-Bench，并设计一个分层架构HD-Guard，利用轻量级模型进行快速初筛，再用大型模型进行深度分析，从而在保证实时性的前提下提高检测精度。这种分层结构的设计旨在模拟人类的快速反应和深度思考过程。

技术框架：HD-Guard是一个分层流式架构，包含两个主要模块：FastBrain和SlowBrain。FastBrain是一个轻量级的模型，负责对输入视频流进行高频率的初步筛选，快速识别潜在的不安全行为。SlowBrain是一个大规模的多模态模型，接收FastBrain筛选出的片段，进行更深入的分析和推理，以确定是否存在真正的不安全行为。两个模块异步运行，FastBrain保证实时性，SlowBrain保证精度。

关键创新：关键创新在于结合了物理模拟和视频生成技术，构建了一个更真实、更具挑战性的家庭环境基准测试数据集HomeSafe-Bench。此外，HD-Guard的分层架构也提供了一种新的思路，即如何利用不同规模的模型协同工作，在实时性和精度之间取得平衡。

关键设计：HomeSafe-Bench数据集包含438个案例，覆盖六个功能区域，并具有细粒度的多维标注。HD-Guard中，FastBrain的具体模型选择和训练方式未知，SlowBrain则利用大规模VLM进行多模态推理。损失函数和具体的网络结构等细节在论文中未详细说明（未知）。

📊 实验亮点

实验结果表明，HD-Guard在延迟和性能之间取得了比现有方法更好的平衡。具体性能数据和对比基线的详细信息未知，但论文强调HD-Guard能够有效减少误报，并提高对不安全行为的检测精度。该研究还分析了当前VLM在安全检测方面的瓶颈，为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于家庭服务机器人、智能家居系统等领域，提升机器人在复杂家庭环境中的安全性。通过准确识别和预警不安全行为，可以有效避免事故发生，保护用户安全，并为未来更智能、更安全的家庭机器人发展奠定基础。

📄 摘要（原文）

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce \textbf{HomeSafe-Bench}, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose \textbf{Hierarchical Dual-Brain Guard for Household Safety (HD-Guard)}, a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理