Safety Not Found (404): Hidden Risks of LLM-Based Robotics Decision Making

📄 arXiv: 2601.05529v1 📥 PDF

作者: Jua Han, Jaeyoon Seo, Jungbin Min, Jean Oh, Jihie Kim

分类: cs.AI, cs.RO

发布日期: 2026-01-09


💡 一句话要点

揭示LLM机器人决策的潜在风险:安全关键场景下的灾难性错误

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 机器人决策 安全性评估 空间推理 灾难性风险

📋 核心要点

  1. 现有基于LLM的机器人决策方法在安全关键场景下存在高风险,即使是小概率的错误也可能导致灾难性后果。
  2. 论文通过设计针对性任务,系统评估LLM在完整信息、不完整信息和安全导向空间推理方面的性能,揭示其潜在的安全漏洞。
  3. 实验结果表明,现有LLM在安全关键任务中表现出严重缺陷,即使是先进模型也无法保证安全性,不适合直接部署。

📝 摘要(中文)

大型语言模型(LLM)日益融入机器人决策,这增加了安全风险,因为一个错误的指令可能直接危及人身安全。本文旨在系统评估LLM在安全攸关场景中的性能,即使是微小错误也可能导致灾难性后果。通过对火灾疏散场景的定性评估,我们识别了LLM决策中的关键失败案例。基于此,我们设计了七项定量评估任务,分为:完整信息、不完整信息和安全导向的空间推理(SOSR)。我们使用ASCII地图来减少歧义,并从视觉处理中分离空间推理。不完整信息任务要求模型推断缺失的上下文,测试空间连续性与幻觉。SOSR任务使用自然语言评估在危及生命的环境中的安全决策。我们对各种LLM和视觉语言模型(VLM)进行了基准测试。结果表明,即使是1%的失败率也可能导致灾难性后果。研究结果表明,当前的LLM尚未准备好直接部署在安全关键系统中。

🔬 方法详解

问题定义:论文旨在解决LLM在机器人决策中应用于安全关键场景时存在的潜在风险问题。现有方法依赖LLM的通用能力,缺乏针对安全性的系统评估,导致无法预测和避免灾难性错误。现有方法的痛点在于无法保证LLM在复杂环境下的决策可靠性,特别是当信息不完整或需要安全推理时。

核心思路:论文的核心思路是通过设计一系列具有挑战性的任务,系统地评估LLM在安全关键场景下的决策能力。这些任务涵盖了完整信息、不完整信息和安全导向的空间推理,旨在揭示LLM在不同情况下的潜在缺陷。通过定量评估,可以更清晰地了解LLM的局限性,并为未来的改进提供指导。

技术框架:论文的技术框架主要包括以下几个阶段:1) 设计火灾疏散场景,进行定性评估,识别LLM决策中的关键失败案例;2) 基于失败案例,设计七项定量评估任务,分为完整信息、不完整信息和安全导向的空间推理(SOSR);3) 选择多种LLM和VLM模型进行基准测试;4) 分析实验结果,评估LLM在不同任务中的性能,并分析潜在的安全风险。

关键创新:论文的关键创新在于:1) 提出了针对LLM机器人决策安全性的系统评估方法,填补了现有研究的空白;2) 设计了具有挑战性的定量评估任务,能够有效揭示LLM在安全关键场景下的潜在缺陷;3) 强调了即使是低错误率也可能导致灾难性后果,颠覆了对LLM性能的传统认知。

关键设计:在完整信息任务中,使用ASCII地图来最小化歧义,并隔离空间推理与视觉处理。不完整信息任务通过引入缺失信息来测试模型的空间连续性推理能力。安全导向的空间推理(SOSR)任务使用自然语言描述场景,评估模型在危及生命环境下的安全决策能力。论文没有详细说明具体的参数设置、损失函数或网络结构,而是侧重于任务设计和结果分析。

📊 实验亮点

实验结果表明,现有LLM在安全关键任务中表现出严重缺陷。例如,在ASCII导航任务中,部分模型取得了0%的成功率。在模拟火灾演习中,模型甚至指示机器人移动到危险区域而非紧急出口。这些结果表明,即使是先进的LLM也无法保证在安全关键场景下的可靠性,1%的错误率可能导致灾难性后果。

🎯 应用场景

该研究成果可应用于开发更安全的机器人系统,尤其是在医疗、救援、工业自动化等安全关键领域。通过系统评估和改进LLM的安全性,可以降低机器人系统在实际应用中发生事故的风险,提高人机协作的安全性。未来的研究可以进一步探索如何将安全约束融入LLM的训练过程中,从而构建更可靠的机器人决策系统。

📄 摘要(原文)

One mistake by an AI system in a safety-critical setting can cost lives. As Large Language Models (LLMs) become integral to robotics decision-making, the physical dimension of risk grows; a single wrong instruction can directly endanger human safety. This paper addresses the urgent need to systematically evaluate LLM performance in scenarios where even minor errors are catastrophic. Through a qualitative evaluation of a fire evacuation scenario, we identified critical failure cases in LLM-based decision-making. Based on these, we designed seven tasks for quantitative assessment, categorized into: Complete Information, Incomplete Information, and Safety-Oriented Spatial Reasoning (SOSR). Complete information tasks utilize ASCII maps to minimize interpretation ambiguity and isolate spatial reasoning from visual processing. Incomplete information tasks require models to infer missing context, testing for spatial continuity versus hallucinations. SOSR tasks use natural language to evaluate safe decision-making in life-threatening contexts. We benchmark various LLMs and Vision-Language Models (VLMs) across these tasks. Beyond aggregate performance, we analyze the implications of a 1% failure rate, highlighting how "rare" errors escalate into catastrophic outcomes. Results reveal serious vulnerabilities: several models achieved a 0% success rate in ASCII navigation, while in a simulated fire drill, models instructed robots to move toward hazardous areas instead of emergency exits. Our findings lead to a sobering conclusion: current LLMs are not ready for direct deployment in safety-critical systems. A 99% accuracy rate is dangerously misleading in robotics, as it implies one out of every hundred executions could result in catastrophic harm. We demonstrate that even state-of-the-art models cannot guarantee safety, and absolute reliance on them creates unacceptable risks.