SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems
作者: Jialiang Fan, Weizhe Xu, Mengyu Liu, Oleg Sokolsky, Insup Lee, Fangxin Kong
分类: cs.RO, cs.AI
发布日期: 2026-02-27
备注: 12 pages, 6 figures
💡 一句话要点
SafeGen-LLM:提升机器人任务规划中安全泛化能力的大语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人任务规划 安全约束 大语言模型 安全泛化 监督微调 强化学习 形式化验证 课程学习
📋 核心要点
- 现有机器人任务规划方法在安全性和泛化性方面存在不足,传统规划器扩展性差,强化学习方法泛化能力弱,通用LLM无法保证安全性。
- SafeGen-LLM通过两阶段后训练框架,即监督微调(SFT)和群体相对策略优化(GRPO),提升模型在安全约束下的规划能力和泛化性。
- 实验结果表明,SafeGen-LLM在多领域规划任务中,针对不同输入格式,均展现出强大的安全泛化能力,优于现有基线模型。
📝 摘要(中文)
机器人系统中安全关键的任务规划仍然面临挑战:传统规划器可扩展性差,基于强化学习(RL)的方法泛化能力弱,而基础的大语言模型(LLM)无法保证安全性。为了解决这一差距,我们提出了安全可泛化的大语言模型,名为SafeGen-LLM。SafeGen-LLM不仅可以提高任务计划的安全性,还可以很好地泛化到各种领域中的新安全属性。我们首先构建了一个具有显式安全约束的多领域规划领域定义语言3(PDDL3)基准。然后,我们引入了一个两阶段的后训练框架:在符合约束的规划数据集上进行监督微调(SFT),以学习规划语法和语义;以及由形式化验证导出的细粒度奖励机器引导的群体相对策略优化(GRPO),以加强安全对齐,并通过课程学习来更好地处理复杂任务。大量实验表明,SafeGen-LLM实现了强大的安全泛化能力,并在多领域规划任务和多种输入格式(例如,PDDL和自然语言)上优于前沿的专有基线。
🔬 方法详解
问题定义:论文旨在解决机器人任务规划中,现有方法在安全性和泛化性上的不足。传统规划器难以扩展到复杂场景,强化学习方法在新环境下的泛化能力较差,而直接使用大型语言模型进行规划无法保证任务的安全性。因此,需要一种既能理解规划语法和语义,又能保证安全约束的规划方法。
核心思路:论文的核心思路是利用大型语言模型强大的语言理解和生成能力,并通过后训练的方式,使其能够理解和满足安全约束,从而提升其在机器人任务规划中的安全性和泛化能力。通过监督微调学习规划语法和语义,再通过群体相对策略优化来强化安全对齐。
技术框架:SafeGen-LLM的技术框架主要包含两个阶段的后训练:首先是监督微调(SFT),使用包含安全约束的规划数据集对LLM进行微调,使其学习规划任务的语法和语义。然后是群体相对策略优化(GRPO),利用从形式化验证导出的细粒度奖励机器,引导LLM生成满足安全约束的规划方案,并采用课程学习策略来处理更复杂的任务。
关键创新:该论文的关键创新在于提出了一个安全可泛化的大语言模型(SafeGen-LLM),并通过两阶段后训练框架,有效地提升了LLM在机器人任务规划中的安全性和泛化能力。与现有方法相比,SafeGen-LLM能够更好地理解和满足安全约束,并在新环境中展现出更强的适应性。
关键设计:在SFT阶段,使用包含安全约束的PDDL3数据集进行微调,确保LLM学习到正确的规划语法和语义。在GRPO阶段,使用细粒度的奖励机器来指导策略优化,奖励机器由形式化验证方法生成,能够精确地评估规划方案的安全性。此外,还采用了课程学习策略,从简单到复杂地训练LLM,以提高其处理复杂任务的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SafeGen-LLM在多领域规划任务中取得了显著的性能提升,尤其是在安全泛化能力方面。SafeGen-LLM在不同输入格式(PDDL和自然语言)下均优于现有基线模型,证明了其强大的适应性和泛化能力。具体性能数据(例如安全违规率、任务完成率等)未在摘要中明确给出,需参考论文正文。
🎯 应用场景
SafeGen-LLM可应用于各种安全关键的机器人任务规划场景,例如自动驾驶、医疗机器人、工业自动化等。该研究成果有助于提升机器人系统的安全性和可靠性,降低事故发生的风险,并为未来更智能、更安全的机器人应用奠定基础。此外,该方法也可以推广到其他需要安全保证的AI系统中。
📄 摘要(原文)
Safety-critical task planning in robotic systems remains challenging: classical planners suffer from poor scalability, Reinforcement Learning (RL)-based methods generalize poorly, and base Large Language Models (LLMs) cannot guarantee safety. To address this gap, we propose safety-generalizable large language models, named SafeGen-LLM. SafeGen-LLM can not only enhance the safety satisfaction of task plans but also generalize well to novel safety properties in various domains. We first construct a multi-domain Planning Domain Definition Language 3 (PDDL3) benchmark with explicit safety constraints. Then, we introduce a two-stage post-training framework: Supervised Fine-Tuning (SFT) on a constraint-compliant planning dataset to learn planning syntax and semantics, and Group Relative Policy Optimization (GRPO) guided by fine-grained reward machines derived from formal verification to enforce safety alignment and by curriculum learning to better handle complex tasks. Extensive experiments show that SafeGen-LLM achieves strong safety generalization and outperforms frontier proprietary baselines across multi-domain planning tasks and multiple input formats (e.g., PDDLs and natural language).