HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

作者: Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu

分类: cs.CV, cs.AI, cs.CR

发布日期: 2026-03-12 (更新: 2026-03-13)

💡 一句话要点

提出HomeSafe-Bench评估具身智能体在家庭场景中不安全行为检测的视觉-语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 家庭机器人 不安全行为检测 视觉-语言模型 基准测试 层次化架构 实时安全监控

📋 核心要点

现有安全评估方法在动态家庭场景中检测不安全行为方面存在不足，无法满足具身智能体的实际需求。
论文提出HomeSafe-Bench基准测试，用于评估视觉-语言模型在家庭场景中不安全行为检测的能力。
论文提出HD-Guard架构，通过FastBrain和SlowBrain的协同工作，在效率和精度之间取得平衡。

📝 摘要（中文）

具身智能体的快速发展加速了家用机器人在现实环境中的部署。与结构化的工业环境不同，家庭空间引入了不可预测的安全风险，感知延迟和常识知识的缺乏可能导致危险错误。现有的安全评估通常仅限于静态图像、文本或一般危害，无法充分评估这些特定场景中动态不安全行为的检测。为了弥补这一差距，我们引入了HomeSafe-Bench，这是一个具有挑战性的基准，旨在评估视觉-语言模型（VLMs）在家庭场景中不安全行为检测的能力。HomeSafe-Bench通过结合物理模拟和高级视频生成的混合流程构建，包含六个功能区域的438个多样化案例，并具有细粒度的多维注释。除了基准测试，我们还提出了用于家庭安全的层次化双脑防护（HD-Guard），这是一种用于实时安全监控的层次化流式架构。HD-Guard协调一个轻量级的FastBrain进行连续高频筛选，以及一个异步的大规模SlowBrain进行深度多模态推理，从而有效地平衡了推理效率和检测精度。评估表明，HD-Guard在延迟和性能之间实现了卓越的权衡，同时我们的分析也发现了当前基于VLM的安全检测中的关键瓶颈。

🔬 方法详解

问题定义：论文旨在解决具身智能体在家庭环境中，由于感知延迟和缺乏常识知识而导致的不安全行为检测问题。现有方法主要集中在静态图像或文本分析，缺乏对动态场景的有效评估，无法满足家庭服务机器人的实际安全需求。

核心思路：论文的核心思路是构建一个更贴近真实家庭环境的动态场景基准测试HomeSafe-Bench，并设计一个层次化的双脑架构HD-Guard，利用轻量级模型进行快速筛选，再由大规模模型进行深度推理，从而在推理效率和检测精度之间取得平衡。

技术框架：HD-Guard架构包含两个主要模块：FastBrain和SlowBrain。FastBrain是一个轻量级的模型，负责连续高频地对环境进行扫描，快速识别潜在的不安全行为。SlowBrain是一个大规模的视觉-语言模型，负责对FastBrain识别出的可疑行为进行深度分析和推理，以确定是否存在真正的安全风险。两个模块异步运行，保证了实时性和准确性。

关键创新：HD-Guard的关键创新在于其层次化的双脑架构，它将轻量级模型的快速响应能力与大规模模型的深度推理能力相结合，实现了实时性和准确性的平衡。此外，HomeSafe-Bench基准测试的构建也为评估视觉-语言模型在家庭场景中的安全检测能力提供了新的平台。

关键设计：HomeSafe-Bench基准测试包含438个多样化的案例，覆盖六个功能区域，并具有细粒度的多维注释。HD-Guard中的FastBrain可以使用轻量级的目标检测模型，SlowBrain可以使用预训练的视觉-语言模型，例如CLIP。损失函数可以根据具体任务进行选择，例如交叉熵损失或对比损失。

📊 实验亮点

实验结果表明，HD-Guard架构在延迟和性能之间取得了良好的平衡。相较于直接使用大型视觉-语言模型，HD-Guard能够在保证较高检测精度的同时，显著降低推理延迟。HomeSafe-Bench基准测试也揭示了现有视觉-语言模型在家庭场景安全检测方面的瓶颈，为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于家庭服务机器人、智能家居系统等领域，提升机器人在复杂家庭环境中的安全性和可靠性。通过HomeSafe-Bench基准测试，可以促进视觉-语言模型在安全检测方面的研究进展，为开发更安全的智能机器人提供技术支持。未来，该技术有望扩展到其他复杂环境，如养老院、医院等。

📄 摘要（原文）

The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce HomeSafe-Bench, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理