GridRoute: A Benchmark for LLM-Based Route Planning with Cardinal Movement in Grid Environments
作者: Kechen Li, Yaotian Tao, Ximing Wen, Quanwei Sun, Zifei Gong, Chang Xu, Xizhe Zhang, Tianbo Ji
分类: cs.AI
发布日期: 2025-05-30 (更新: 2025-08-13)
备注: 8 pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出GridRoute基准以提升LLM在网格环境中的路径规划能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 路径规划 网格环境 思维算法 传统算法 性能评估 混合提示技术
📋 核心要点
- 现有研究多集中于LLMs的独立推理能力,缺乏对LLMs与传统算法协同作用的探讨。
- 本文提出GridRoute基准及思维算法(AoT),将传统算法的指导融入LLMs的提示中,以提升路径规划能力。
- 实验结果显示,AoT在所有模型规模上均显著提升了性能,尤其在复杂环境中表现尤为突出。
📝 摘要(中文)
近年来,大型语言模型(LLMs)在规划和推理任务中的潜力得到了广泛关注,成为经典路径寻找算法的灵活替代方案。然而,现有研究多集中于LLMs的独立推理能力,忽视了LLMs与传统算法之间的协同潜力。为此,本文提出了一个全面的评估基准GridRoute,以评估LLMs如何利用传统算法的优势。同时,提出了一种新颖的混合提示技术——思维算法(AoT),将传统算法的指导引入提示中。我们的基准评估了六种不同参数规模的LLMs在不同地图大小下的表现,结果表明AoT在所有模型规模上显著提升了性能,尤其是在更大或更复杂的环境中,显示出解决路径规划挑战的良好前景。
🔬 方法详解
问题定义:本文旨在解决LLMs在网格环境中的路径规划问题,现有方法未能充分利用传统算法的优势,导致性能不足。
核心思路:通过引入思维算法(AoT),将传统算法的指导融入LLMs的提示中,从而提升其在路径规划中的表现。
技术框架:整体架构包括数据准备、模型训练和评估三个主要阶段。首先,构建多种地图环境并生成相应的路径规划任务;其次,训练不同规模的LLMs;最后,通过GridRoute基准评估模型性能。
关键创新:最重要的技术创新在于AoT,它通过结合传统算法的指导,显著提升了LLMs在复杂环境中的路径规划能力,与现有方法形成鲜明对比。
关键设计:在模型训练中,采用了不同规模的LLMs(7B到72B参数),并在提示中引入传统算法的策略,以优化模型的学习过程。
📊 实验亮点
实验结果表明,采用AoT的模型在所有规模上均实现了显著的性能提升,尤其在复杂环境中,性能提升幅度可达20%以上,显示出该方法的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括智能交通系统、机器人导航和游戏AI等。通过提升LLMs在路径规划中的表现,能够为复杂环境中的决策提供更为高效和灵活的解决方案,具有重要的实际价值和未来影响。
📄 摘要(原文)
Recent advancements in Large Language Models (LLMs) have demonstrated their potential in planning and reasoning tasks, offering a flexible alternative to classical pathfinding algorithms. However, most existing studies focus on LLMs' independent reasoning capabilities and overlook the potential synergy between LLMs and traditional algorithms. To fill this gap, we propose a comprehensive evaluation benchmark GridRoute to assess how LLMs can take advantage of traditional algorithms. We also propose a novel hybrid prompting technique called Algorithm of Thought (AoT), which introduces traditional algorithms' guidance into prompting. Our benchmark evaluates six LLMs ranging from 7B to 72B parameters across various map sizes, assessing their performance in correctness, optimality, and efficiency in grid environments with varying sizes. Our results show that AoT significantly boosts performance across all model sizes, particularly in larger or more complex environments, suggesting a promising approach to addressing path planning challenges. Our code is open-sourced at https://github.com/LinChance/GridRoute.