SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems

作者: Jialiang Fan, Weizhe Xu, Mengyu Liu, Oleg Sokolsky, Insup Lee, Fangxin Kong

分类: cs.RO, cs.AI

发布日期: 2026-02-27

备注: 12 pages, 6 figures

💡 一句话要点

SafeGen-LLM：提升机器人任务规划中安全泛化能力的大语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人任务规划 安全约束 大语言模型 安全泛化 监督微调 强化学习 形式化验证 课程学习

📋 核心要点

现有机器人任务规划方法在安全性和泛化性方面存在不足，传统规划器扩展性差，强化学习方法泛化能力弱，通用LLM无法保证安全性。
SafeGen-LLM通过两阶段后训练框架，即监督微调（SFT）和群体相对策略优化（GRPO），提升模型在安全约束下的规划能力和泛化性。
实验结果表明，SafeGen-LLM在多领域规划任务中，针对不同输入格式，均展现出强大的安全泛化能力，优于现有基线模型。

📝 摘要（中文）

机器人系统中安全关键的任务规划仍然面临挑战：传统规划器可扩展性差，基于强化学习（RL）的方法泛化能力弱，而基础的大语言模型（LLM）无法保证安全性。为了解决这一差距，我们提出了安全可泛化的大语言模型，名为SafeGen-LLM。SafeGen-LLM不仅可以提高任务计划的安全性，还可以很好地泛化到各种领域中的新安全属性。我们首先构建了一个具有显式安全约束的多领域规划领域定义语言3（PDDL3）基准。然后，我们引入了一个两阶段的后训练框架：在符合约束的规划数据集上进行监督微调（SFT），以学习规划语法和语义；以及由形式化验证导出的细粒度奖励机器引导的群体相对策略优化（GRPO），以加强安全对齐，并通过课程学习来更好地处理复杂任务。大量实验表明，SafeGen-LLM实现了强大的安全泛化能力，并在多领域规划任务和多种输入格式（例如，PDDL和自然语言）上优于前沿的专有基线。

🔬 方法详解

问题定义：论文旨在解决机器人任务规划中，现有方法在安全性和泛化性上的不足。传统规划器难以扩展到复杂场景，强化学习方法在新环境下的泛化能力较差，而直接使用大型语言模型进行规划无法保证任务的安全性。因此，需要一种既能理解规划语法和语义，又能保证安全约束的规划方法。

核心思路：论文的核心思路是利用大型语言模型强大的语言理解和生成能力，并通过后训练的方式，使其能够理解和满足安全约束，从而提升其在机器人任务规划中的安全性和泛化能力。通过监督微调学习规划语法和语义，再通过群体相对策略优化来强化安全对齐。

技术框架：SafeGen-LLM的技术框架主要包含两个阶段的后训练：首先是监督微调（SFT），使用包含安全约束的规划数据集对LLM进行微调，使其学习规划任务的语法和语义。然后是群体相对策略优化（GRPO），利用从形式化验证导出的细粒度奖励机器，引导LLM生成满足安全约束的规划方案，并采用课程学习策略来处理更复杂的任务。

关键创新：该论文的关键创新在于提出了一个安全可泛化的大语言模型（SafeGen-LLM），并通过两阶段后训练框架，有效地提升了LLM在机器人任务规划中的安全性和泛化能力。与现有方法相比，SafeGen-LLM能够更好地理解和满足安全约束，并在新环境中展现出更强的适应性。

关键设计：在SFT阶段，使用包含安全约束的PDDL3数据集进行微调，确保LLM学习到正确的规划语法和语义。在GRPO阶段，使用细粒度的奖励机器来指导策略优化，奖励机器由形式化验证方法生成，能够精确地评估规划方案的安全性。此外，还采用了课程学习策略，从简单到复杂地训练LLM，以提高其处理复杂任务的能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SafeGen-LLM在多领域规划任务中取得了显著的性能提升，尤其是在安全泛化能力方面。SafeGen-LLM在不同输入格式（PDDL和自然语言）下均优于现有基线模型，证明了其强大的适应性和泛化能力。具体性能数据（例如安全违规率、任务完成率等）未在摘要中明确给出，需参考论文正文。

🎯 应用场景

SafeGen-LLM可应用于各种安全关键的机器人任务规划场景，例如自动驾驶、医疗机器人、工业自动化等。该研究成果有助于提升机器人系统的安全性和可靠性，降低事故发生的风险，并为未来更智能、更安全的机器人应用奠定基础。此外，该方法也可以推广到其他需要安全保证的AI系统中。

📄 摘要（原文）

Safety-critical task planning in robotic systems remains challenging: classical planners suffer from poor scalability, Reinforcement Learning (RL)-based methods generalize poorly, and base Large Language Models (LLMs) cannot guarantee safety. To address this gap, we propose safety-generalizable large language models, named SafeGen-LLM. SafeGen-LLM can not only enhance the safety satisfaction of task plans but also generalize well to novel safety properties in various domains. We first construct a multi-domain Planning Domain Definition Language 3 (PDDL3) benchmark with explicit safety constraints. Then, we introduce a two-stage post-training framework: Supervised Fine-Tuning (SFT) on a constraint-compliant planning dataset to learn planning syntax and semantics, and Group Relative Policy Optimization (GRPO) guided by fine-grained reward machines derived from formal verification to enforce safety alignment and by curriculum learning to better handle complex tasks. Extensive experiments show that SafeGen-LLM achieves strong safety generalization and outperforms frontier proprietary baselines across multi-domain planning tasks and multiple input formats (e.g., PDDLs and natural language).

SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理