SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models
作者: Josue Torres-Fonseca, Naihao Deng, Yinpei Dai, Shane Storks, Yichi Zhang, Rada Mihalcea, Casey Kennington, Joyce Chai
分类: cs.AI, cs.CL, cs.RO
发布日期: 2026-04-21
备注: Work accepted at ACL 2026 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
SafetyALFRED:评估多模态大语言模型在具身环境中安全意识规划能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 多模态大语言模型 安全评估 风险缓解 厨房环境 ALFRED数据集
📋 核心要点
- 现有方法在非具身问答环境中评估安全,无法有效衡量智能体在真实具身环境中的风险缓解能力。
- SafetyALFRED通过扩展ALFRED数据集,引入厨房安全危害,并评估模型在具身环境中的主动风险缓解能力。
- 实验表明,模型在问答环境中能识别危害,但在具身环境中缓解危害的成功率较低,存在显著的对齐差距。
📝 摘要(中文)
多模态大语言模型越来越多地被用作交互式环境中的自主智能体,但它们主动解决安全隐患的能力仍然不足。我们构建在具身智能体基准ALFRED之上,引入了SafetyALFRED,并增加了六类现实厨房危害。现有的安全评估侧重于通过非具身问答(QA)设置进行危害识别,而我们不仅评估了来自Qwen、Gemma和Gemini系列的11个最先进模型在危害识别方面的能力,还评估了它们通过具身规划进行主动风险缓解的能力。我们的实验结果揭示了一个显著的对齐差距:虽然模型可以在QA设置中准确识别危害,但这些危害的平均缓解成功率相对较低。我们的研究结果表明,通过QA进行的静态评估不足以保障物理安全,因此我们提倡一种范式转变,即优先考虑具身环境中的纠正措施的基准。我们以https://github.com/sled-group/SafetyALFRED.git开源了我们的代码和数据集。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在具身环境中,主动识别并缓解安全隐患能力不足的问题。现有方法主要通过非具身问答的方式评估模型的安全意识,无法真实反映智能体在实际物理环境中应对安全风险的能力。这种静态评估方式忽略了智能体与环境的交互,以及采取纠正措施的重要性。
核心思路:论文的核心思路是构建一个更贴近真实场景的具身环境安全评估基准,即SafetyALFRED。通过扩展现有的ALFRED数据集,引入厨房中常见的安全隐患,并设计相应的任务,来评估模型在具身环境中主动识别和缓解安全风险的能力。这种方法强调智能体与环境的交互,以及采取纠正措施的重要性。
技术框架:SafetyALFRED的整体框架包括以下几个主要部分:1) 扩展ALFRED数据集,引入六类厨房安全隐患,例如:火灾、溢出、刀具等。2) 设计相应的具身任务,要求智能体在模拟厨房环境中执行特定任务,并主动识别和缓解潜在的安全风险。3) 评估模型在执行任务过程中的安全意识和风险缓解能力,包括危害识别的准确率和风险缓解的成功率。4) 对比不同模型在SafetyALFRED上的表现,分析其安全意识和风险缓解能力的差异。
关键创新:论文的关键创新在于提出了SafetyALFRED,这是一个更贴近真实场景的具身环境安全评估基准。与现有的安全评估方法相比,SafetyALFRED更加强调智能体与环境的交互,以及采取纠正措施的重要性。此外,SafetyALFRED还引入了多种厨房安全隐患,使得评估更加全面和真实。
关键设计:SafetyALFRED的关键设计包括:1) 引入六类厨房安全隐患,并为每类隐患设计相应的任务。2) 使用ALFRED的模拟环境,提供逼真的厨房场景。3) 采用多种评估指标,包括危害识别准确率和风险缓解成功率,全面评估模型的安全意识和风险缓解能力。4) 针对不同类型的安全隐患,设计不同的纠正措施,例如:关闭燃气灶、擦拭溢出物、安全存放刀具等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,尽管现有模型在非具身问答环境中能够准确识别安全隐患,但在SafetyALFRED的具身环境中,风险缓解的成功率显著降低。这表明静态评估不足以衡量智能体的实际安全能力。例如,模型在QA中识别火灾的准确率较高,但在具身环境中成功关闭燃气灶的概率较低,揭示了模型在感知和行动之间的对齐差距。
🎯 应用场景
该研究成果可应用于开发更安全的家庭服务机器人,例如厨房助手、清洁机器人等。通过提高机器人在具身环境中的安全意识和风险缓解能力,可以有效减少意外事故的发生,提升用户体验。此外,该研究还可以促进多模态大语言模型在安全关键领域的应用,例如自动驾驶、医疗辅助等。
📄 摘要(原文)
Multimodal Large Language Models are increasingly adopted as autonomous agents in interactive environments, yet their ability to proactively address safety hazards remains insufficient. We introduce SafetyALFRED, built upon the embodied agent benchmark ALFRED, augmented with six categories of real-world kitchen hazards. While existing safety evaluations focus on hazard recognition through disembodied question answering (QA) settings, we evaluate eleven state-of-the-art models from the Qwen, Gemma, and Gemini families on not only hazard recognition, but also active risk mitigation through embodied planning. Our experimental results reveal a significant alignment gap: while models can accurately recognize hazards in QA settings, average mitigation success rates for these hazards are low in comparison. Our findings demonstrate that static evaluations through QA are insufficient for physical safety, thus we advocate for a paradigm shift toward benchmarks that prioritize corrective actions in embodied contexts. We open-source our code and dataset under https://github.com/sled-group/SafetyALFRED.git