The DeepXube Software Package for Solving Pathfinding Problems with Learned Heuristic Functions and Search

📄 arXiv: 2603.23873v1 📥 PDF

作者: Forest Agostinelli

分类: cs.AI, cs.LG

发布日期: 2026-03-25

🔗 代码/项目: GITHUB


💡 一句话要点

DeepXube:一个基于学习的启发式函数解决路径规划问题的软件包

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 路径规划 启发式搜索 深度强化学习 深度神经网络 机器人导航

📋 核心要点

  1. 现有路径规划方法在复杂环境下效率较低,难以适应深度神经网络的特性。
  2. DeepXube利用深度强化学习学习启发式函数,指导搜索算法,提升路径规划效率。
  3. DeepXube通过并行化数据生成和模型训练,并提供可视化工具,简化开发流程。

📝 摘要(中文)

DeepXube是一个免费且开源的Python软件包和命令行工具,旨在通过机器学习自动解决路径规划问题,它通过学习启发式函数来指导专为深度神经网络(DNN)量身定制的启发式搜索算法。DeepXube融合了深度强化学习、启发式搜索和形式逻辑领域的最新进展,用于解决路径规划问题。这包括有限视野的基于贝尔曼的学习、后见之明经验回放、批量启发式搜索以及使用答案集编程指定目标。一个强大的多重继承结构简化了路径规划领域的定义和训练数据的生成。通过跨中央处理器(CPU)自动并行化训练数据的生成以及跨图形处理器(GPU)并行化强化学习更新,可以高效地训练启发式函数。诸如批量加权A搜索、Q搜索和束搜索等利用GPU和DNN架构并行性的路径规划算法,可以通过命令行参数轻松地用于解决路径规划问题。最后,该软件包还提供了一些方便的功能,用于在训练和求解过程中进行可视化、代码分析和进度监控。

🔬 方法详解

问题定义:论文旨在解决传统路径规划算法在复杂环境中效率低下的问题,尤其是在与深度神经网络结合时。现有方法难以充分利用深度学习的优势,并且缺乏针对DNN架构的优化。传统启发式搜索算法需要人工设计启发式函数,这既耗时又需要领域知识。

核心思路:论文的核心思路是利用深度强化学习自动学习启发式函数,从而指导启发式搜索算法。通过学习,启发式函数能够更好地估计从当前状态到目标状态的代价,从而提高搜索效率。这种方法避免了手动设计启发式函数的繁琐过程,并且能够适应复杂的环境和DNN的特性。

技术框架:DeepXube软件包的整体框架包括以下几个主要模块:1) 路径规划领域定义模块,使用多重继承结构简化领域定义和训练数据生成;2) 训练数据生成模块,通过CPU并行化加速数据生成;3) 启发式函数学习模块,使用深度强化学习算法在GPU上进行模型训练;4) 路径规划求解模块,包含批量加权A、Q搜索和束搜索等算法,利用GPU并行性加速求解;5) 可视化和监控模块,提供训练和求解过程的可视化和进度监控功能。

关键创新:论文的关键创新在于将深度强化学习与启发式搜索相结合,自动学习启发式函数。此外,DeepXube还通过批量处理和GPU并行化等技术,优化了训练和求解过程,使其能够高效地处理大规模路径规划问题。使用答案集编程指定目标也使得问题定义更加灵活。

关键设计:DeepXube使用了有限视野的基于贝尔曼的学习和后见之明经验回放等技术来提高强化学习的效率和稳定性。批量加权A和Q搜索算法利用了GPU的并行计算能力,加速了搜索过程。此外,软件包还提供了灵活的配置选项,允许用户根据具体问题调整参数,例如学习率、批量大小、网络结构等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeepXube通过深度强化学习自动学习启发式函数,避免了手动设计的繁琐过程,并能适应复杂环境。软件包利用CPU和GPU并行化加速训练和求解过程,显著提升了路径规划效率。通过提供可视化和监控工具,简化了开发流程,方便用户进行调试和优化。具体性能数据和对比基线信息未知。

🎯 应用场景

DeepXube可应用于机器人导航、游戏AI、自动驾驶、物流规划等领域。通过学习环境特征,可以为机器人提供更智能的路径规划策略,提高导航效率和安全性。在游戏AI中,可以生成更具挑战性和智能性的游戏角色。在自动驾驶领域,可以优化车辆的行驶路线,提高燃油效率和安全性。在物流规划中,可以优化配送路线,降低运输成本。

📄 摘要(原文)

DeepXube is a free and open-source Python package and command-line tool that seeks to automate the solution of pathfinding problems by using machine learning to learn heuristic functions that guide heuristic search algorithms tailored to deep neural networks (DNNs). DeepXube is comprised of the latest advances in deep reinforcement learning, heuristic search, and formal logic for solving pathfinding problems. This includes limited-horizon Bellman-based learning, hindsight experience replay, batched heuristic search, and specifying goals with answer-set programming. A robust multiple-inheritance structure simplifies the definition of pathfinding domains and the generation of training data. Training heuristic functions is made efficient through the automatic parallelization of the generation of training data across central processing units (CPUs) and reinforcement learning updates across graphics processing units (GPUs). Pathfinding algorithms that take advantage of the parallelism of GPUs and DNN architectures, such as batch weighted A and Q search and beam search are easily employed to solve pathfinding problems through command-line arguments. Finally, several convenient features for visualization, code profiling, and progress monitoring during training and solving are available. The GitHub repository is publicly available at https://github.com/forestagostinelli/deepxube.