Reward Shaping and Action Masking for Compositional Tasks using Behavior Trees and LLMs
作者: Nicholas Potteiger, Ankita Samaddar, Taylor T. Johnson, Xenofon Koutsoukos
分类: cs.LG
发布日期: 2026-05-07
💡 一句话要点
提出掩码奖励行为树(MRBT)框架,结合LLM与神经符号强化学习实现组合任务的高效求解
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 行为树 大语言模型 神经符号学习 动作掩码 奖励塑造 形式化验证
📋 核心要点
- 现有方法在处理组合任务时,难以兼顾对子任务失败的实时响应能力以及对不同交互对象的模块化适应性。
- 提出掩码奖励行为树(MRBT),将符号化行为树作为奖励塑造与动作掩码的载体,实现任务逻辑的结构化表达。
- 实验证明MRBT显著提升了强化学习的训练效率与成功率,并验证了其在可迁移性、模块化及形式化验证方面的优势。
📝 摘要(中文)
将复杂任务分解为子任务序列可显著提升自主智能体的学习效率。强化学习(RL)虽能优化子任务策略,但依赖于定义良好的奖励函数,且常受益于动作掩码(Action Masking)。尽管近期研究利用大语言模型(LLM)实现奖励塑造与动作掩码自动化,但仍难以完全解决组合任务中对子任务失败的响应性及对不同对象的模块化需求。为此,本文提出了掩码奖励行为树(MRBT),这是一种作为反应式且模块化奖励与动作掩码函数的符号结构。我们设计了MRBT模板,并推导了逻辑规范以构建和验证针对对象交互子任务序列的MRBT。此外,我们开发了一个自动化流水线,利用LLM生成对任务对象具有鲁棒性的MRBT,通过SMT求解器验证规范正确性,并结合神经符号RL循环进行训练。实验表明,MRBT在提升训练效率和任务成功率方面优于基线方法,并具备可迁移性、模块化和可验证性等显著优势。
🔬 方法详解
问题定义:论文旨在解决复杂组合任务中强化学习训练效率低、奖励函数设计困难以及动作空间探索盲目等问题,特别是现有基于LLM的方法在处理动态环境下的子任务失败响应和对象模块化方面的局限性。
核心思路:引入行为树(Behavior Trees, BT)作为一种符号化中间件,将其作为奖励函数和动作掩码的逻辑载体。通过将任务逻辑显式编码在树结构中,实现对智能体行为的实时约束与反馈,从而将复杂的组合任务转化为一系列可验证的子任务序列。
技术框架:系统包含三个核心模块:一是LLM生成器,负责根据任务描述生成MRBT结构;二是SMT求解器,用于对生成的MRBT进行逻辑规范验证,确保其满足任务约束;三是神经符号RL训练循环,将MRBT嵌入智能体训练过程,实时提供奖励信号与动作掩码。
关键创新:MRBT将奖励塑造与动作掩码统一在行为树的符号框架下,实现了“逻辑驱动的强化学习”。与传统黑盒奖励函数不同,MRBT提供了可解释的逻辑结构,并能通过SMT求解器进行形式化验证,确保任务执行的安全性与正确性。
关键设计:设计了MRBT模板以支持对象参数化,允许模型在不同对象间进行迁移。通过定义特定的节点类型(如条件节点、动作节点),将任务状态映射为动作掩码,并根据树的遍历状态动态计算奖励值,有效解决了稀疏奖励问题。
🖼️ 关键图片
📊 实验亮点
实验在五个组合任务上验证了MRBT的有效性。结果显示,相比于无动作掩码的基线及传统RL方法,MRBT在训练收敛速度和最终成功率上均有显著提升。此外,该方法成功展示了在不同任务对象间的零样本或少样本迁移能力,并证明了通过SMT验证后的MRBT在复杂逻辑任务中的鲁棒性。
🎯 应用场景
该研究适用于机器人操作、自动化仓储物流及复杂工业装配等需要长程规划与多步交互的领域。其模块化与可验证特性使其在对安全性要求极高的自主系统中具有广阔应用前景,能够显著降低复杂任务的策略开发与部署成本。
📄 摘要(原文)
Decomposing complex tasks into a sequence of simpler subtasks can improve learning efficiency for an autonomous agent. Reinforcement learning (RL) can be used to optimize agent policies to complete subtasks, but requires well-defined subtask rewards and benefits from action masking. Recent work uses large language models (LLMs) to automate reward shaping and action masking, however none of them fully address reactivity to subtask failure and modularity to varying objects for compositional tasks. To overcome these challenges, we develop masking reward behavior tree (MRBT), a symbolic structure used as a reactive and modular reward and action mask function. We design an MRBT template and derive logical specifications to construct and verify MRBTs for a sequence of object-interaction subtasks. Further, we develop an automated pipeline that uses an LLM to generate MRBTs robust to varying task objects, an SMT-solver to verify correctness of specifications, and a neurosymbolic RL loop to train agents on compositional tasks. Experiments demonstrate successful generation and refinement of five MRBTs, consistently improving training efficiency and task success rates over baselines and MRBTs without action masking. We further highlight three advantages of MRBTs: transferability, modularity, and verifiability.