Using large language models for embodied planning introduces systematic safety risks

作者: Tao Zhang, Kaixian Qu, Zhibin Li, Jiajun Wu, Marco Hutter, Manling Li, Fan Shi

分类: cs.AI, cs.LG, cs.RO

发布日期: 2026-04-20

备注: Project page: https://despite-safety.github.io/

💡 一句话要点

大型语言模型具身规划存在系统性安全风险

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 具身规划 机器人安全 安全意识 基准测试

📋 核心要点

现有方法依赖大型语言模型进行机器人规划，但其安全性未得到充分评估，存在潜在风险。
论文提出DESPITE基准，用于系统评估语言模型在具身规划中的安全问题，涵盖物理和规范危险。
实验表明，即使规划能力很强，语言模型仍可能产生危险计划，安全意识提升是关键挑战。

📝 摘要（中文）

大型语言模型越来越多地被用作机器人系统的规划器，但它们规划的安全性仍然是一个悬而未决的问题。为了系统地评估安全规划，我们引入了DESPITE，这是一个包含12279个任务的基准，涵盖了物理和规范危险，并具有完全确定的验证。对23个模型的评估表明，即使是近乎完美的规划能力也不能确保安全：最佳规划模型仅在0.4%的任务中产生无效计划，但在28.3%的任务中产生危险计划。在参数量从3B到671B的18个开源模型中，规划能力随着规模的扩大而显著提高（0.4-99.3%），而安全意识则相对平稳（38-57%）。我们发现这两种能力之间存在倍增关系，表明更大的模型主要通过改进规划来更安全地完成更多任务，而不是通过更好地避免危险。三个专有的推理模型达到了明显更高的安全意识（71-81%），而非推理的专有模型和开源推理模型仍然低于57%。随着前沿模型的规划能力接近饱和，提高安全意识成为在机器人系统中部署语言模型规划器的核心挑战。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在机器人具身规划中存在的安全风险问题。现有方法虽然利用LLM强大的规划能力，但缺乏对规划方案安全性的系统评估和保障，可能导致机器人执行危险或违反规范的任务。现有方法未能充分区分规划能力和安全意识，导致模型在提升规划能力的同时，安全性能提升有限。

核心思路：论文的核心思路是构建一个全面的安全评估基准（DESPITE），并利用该基准系统性地评估不同规模和类型的LLM在具身规划中的安全性能。通过分析模型在不同类型危险场景下的表现，揭示规划能力和安全意识之间的关系，并找出提升LLM安全规划能力的关键因素。

技术框架：论文的技术框架主要包括以下几个部分：1) 构建DESPITE基准，包含物理和规范两类危险场景，并提供完全确定的验证方法；2) 选择不同规模（3B-671B）和类型的LLM（开源、专有、推理、非推理）进行评估；3) 使用DESPITE基准评估LLM的规划能力和安全意识；4) 分析规划能力和安全意识之间的关系，并找出影响安全性能的关键因素。

关键创新：论文的关键创新在于：1) 提出了DESPITE基准，为系统评估LLM在具身规划中的安全性能提供了工具；2) 揭示了规划能力和安全意识之间的倍增关系，表明单纯提升规划能力并不一定能提高安全性；3) 发现专有的推理模型在安全意识方面表现更优，为未来研究提供了方向。

关键设计：DESPITE基准包含12279个任务，涵盖物理（如碰撞、跌落）和规范（如违反法律、道德）两类危险。每个任务都设计了完全确定的验证方法，确保评估结果的准确性。论文使用成功率（valid plan）来衡量规划能力，使用安全率（safe plan）来衡量安全意识。论文还分析了不同类型危险场景下模型的表现，以更细粒度地评估安全性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是规划能力接近完美的模型，仍有28.3%的任务会产生危险计划。开源模型的规划能力随规模增长显著（0.4-99.3%），但安全意识提升有限（38-57%）。专有推理模型安全意识较高（71-81%），而非推理模型和开源推理模型则较低（<57%）。研究揭示了规划能力和安全意识之间的倍增关系。

🎯 应用场景

该研究成果可应用于机器人安全规划、自动驾驶、智能家居等领域。通过提高语言模型规划器的安全意识，可以减少机器人执行危险任务的风险，提升人机协作的安全性，并促进机器人技术在更广泛领域的应用。未来的研究可以进一步探索如何将安全意识融入到语言模型的训练过程中，从而构建更安全可靠的机器人系统。

📄 摘要（原文）

Large language models are increasingly used as planners for robotic systems, yet how safely they plan remains an open question. To evaluate safe planning systematically, we introduce DESPITE, a benchmark of 12,279 tasks spanning physical and normative dangers with fully deterministic validation. Across 23 models, even near-perfect planning ability does not ensure safety: the best-planning model fails to produce a valid plan on only 0.4% of tasks but produces dangerous plans on 28.3%. Among 18 open-source models from 3B to 671B parameters, planning ability improves substantially with scale (0.4-99.3%) while safety awareness remains relatively flat (38-57%). We identify a multiplicative relationship between these two capacities, showing that larger models complete more tasks safely primarily through improved planning, not through better danger avoidance. Three proprietary reasoning models reach notably higher safety awareness (71-81%), while non-reasoning proprietary models and open-source reasoning models remain below 57%. As planning ability approaches saturation for frontier models, improving safety awareness becomes a central challenge for deploying language-model planners in robotic systems.

Using large language models for embodied planning introduces systematic safety risks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理