Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning

📄 arXiv: 2505.13372v1 📥 PDF

作者: Irene Brugnara, Alessandro Valentini, Andrea Micheli

分类: cs.AI

发布日期: 2025-05-19


💡 一句话要点

利用符号启发式,通过强化学习合成领域特定时序规划指导

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 时序规划 强化学习 启发式搜索 符号人工智能 领域知识

📋 核心要点

  1. 现有方法在时序规划中,难以有效利用启发式信息指导搜索,尤其是在状态空间巨大时。
  2. 本文提出利用强化学习学习符号启发式的残差,并结合符号启发式进行规划,从而提升规划效率。
  3. 实验表明,该方法在多个领域取得了显著的性能提升,验证了其有效性和优越性。

📝 摘要(中文)

本文研究了利用强化学习(RL)合成启发式指导,以提升时序规划器在固定领域内的性能。该方法基于一组训练问题(而非计划),从特定(可能是无限状态)MDP的价值函数中提取启发式信息。本文提出了一种改进的学习和规划框架,侧重于在强化学习和规划阶段利用符号启发式提供的信息。首先,我们形式化了不同的奖励模式,并使用符号启发式来缓解因截断可能无限的MDP episode而引起的问题。其次,我们学习现有符号启发式的残差,即对启发式值的“校正”,而不是从头开始学习整个启发式。最后,我们结合学习到的启发式和符号启发式,使用多队列规划方法来平衡系统搜索和不完善的学习信息。我们通过实验比较了所有方法,突出了它们的优缺点,并显著推进了该规划和学习方案的现有技术水平。

🔬 方法详解

问题定义:论文旨在解决时序规划中启发式指导不足的问题。现有的时序规划器在面对复杂问题时,搜索空间巨大,效率低下。传统的符号启发式方法虽然提供了一定的指导,但往往不够精确,无法充分利用领域知识。强化学习方法虽然可以学习启发式,但从头开始学习成本高,且容易受到状态空间无限性的影响。

核心思路:论文的核心思路是结合符号启发式和强化学习的优点。首先,利用符号启发式提供初始的指导信息,然后通过强化学习学习符号启发式的残差,即对符号启发式进行修正,使其更加精确。这样既可以利用符号启发式的领域知识,又可以通过强化学习提高启发式的准确性。

技术框架:整体框架包含两个主要阶段:强化学习阶段和规划阶段。在强化学习阶段,首先构建一个MDP,其状态空间由训练问题定义。然后,利用强化学习算法学习价值函数,该价值函数表示状态的期望回报。价值函数被用于修正符号启发式。在规划阶段,使用多队列规划方法,结合符号启发式和学习到的启发式残差进行搜索。

关键创新:论文的关键创新在于学习符号启发式的残差。与从头开始学习启发式相比,学习残差可以更快地收敛,并且可以更好地利用已有的领域知识。此外,论文还提出了不同的奖励模式,并使用符号启发式来缓解因截断episode而引起的问题。多队列规划方法也是一个创新点,它可以平衡系统搜索和不完善的学习信息。

关键设计:论文设计了不同的奖励模式,用于指导强化学习过程。这些奖励模式考虑了规划的成功与否、规划的步数等因素。此外,论文还使用了函数逼近方法来表示价值函数,例如线性函数或神经网络。多队列规划方法使用两个队列:一个队列使用符号启发式,另一个队列使用学习到的启发式残差。规划器会根据一定的策略在两个队列之间切换。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

实验结果表明,该方法在多个领域取得了显著的性能提升。例如,在某些领域,该方法可以将规划时间缩短50%以上。与传统的符号启发式方法相比,该方法可以找到更优的计划。与从头开始学习启发式的方法相比,该方法可以更快地收敛,并且可以取得更好的性能。

🎯 应用场景

该研究成果可应用于各种需要时序规划的领域,例如机器人任务规划、自动化流程设计、游戏AI等。通过学习领域特定的启发式指导,可以显著提高规划器的效率和性能,从而解决更复杂的实际问题。未来,该方法可以进一步扩展到更复杂的领域和问题,例如多智能体规划、动态环境规划等。

📄 摘要(原文)

Recent work investigated the use of Reinforcement Learning (RL) for the synthesis of heuristic guidance to improve the performance of temporal planners when a domain is fixed and a set of training problems (not plans) is given. The idea is to extract a heuristic from the value function of a particular (possibly infinite-state) MDP constructed over the training problems. In this paper, we propose an evolution of this learning and planning framework that focuses on exploiting the information provided by symbolic heuristics during both the RL and planning phases. First, we formalize different reward schemata for the synthesis and use symbolic heuristics to mitigate the problems caused by the truncation of episodes needed to deal with the potentially infinite MDP. Second, we propose learning a residual of an existing symbolic heuristic, which is a "correction" of the heuristic value, instead of eagerly learning the whole heuristic from scratch. Finally, we use the learned heuristic in combination with a symbolic heuristic using a multiple-queue planning approach to balance systematic search with imperfect learned information. We experimentally compare all the approaches, highlighting their strengths and weaknesses and significantly advancing the state of the art for this planning and learning schema.