Large Language Models as Common-Sense Heuristics

作者: Andrey Borro, Patricia J Riddle, Michael W Barley, Michael J Witbrock

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-01-31

备注: 7 page body, 2 page references, 5 page appendix (14 page total); 1 figure; Submitted to IJCAI2025

💡 一句话要点

利用大语言模型作为常识启发式，提升家庭环境下的规划任务成功率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 规划任务 启发式搜索 常识推理 家庭机器人

📋 核心要点

现有规划系统忽略任务描述中的语义信息，而LLM虽具备语义理解能力，但难以生成正确可执行的计划。
论文提出一种新方法，利用LLM的输出作为爬山搜索的启发式，并提示LLM生成解决方案估计来指导搜索。
实验表明，该方法在家庭环境中任务成功率提升22%，且生成的计划始终可执行，无需中间语言翻译。

📝 摘要（中文）

尽管在规划任务领域，专门设计的系统远胜于大型语言模型（LLMs），但它们通常忽略了任务描述中蕴含的丰富语义信息。相反，LLMs拥有跨越广泛主题的参数化知识，使其能够利用规划任务的自然语言描述来辅助解决方案。然而，目前这方面的研究面临着生成正确且可执行计划的挑战。此外，这些方法依赖于LLM以中间语言输出解决方案，这必须被翻译成规划任务的表示语言。我们提出了一种新的规划方法，通过将LLM的输出用作爬山搜索的启发式，从而利用LLM的参数化知识。通过提示LLM生成解决方案估计来进一步增强这种方法，以指导搜索。我们的方法在常见的家庭环境中，任务成功率超过了类似系统22个百分点，并且计划始终可执行。所有动作都以其原始表示进行编码，表明无需中间语言即可获得强大的结果，从而消除了翻译步骤的需要。

🔬 方法详解

问题定义：论文旨在解决在家庭环境中，如何利用大型语言模型（LLMs）的常识知识来提升规划任务的成功率和可执行性。现有方法要么忽略了任务描述中的语义信息，要么依赖于LLM生成中间语言的计划，需要额外的翻译步骤，增加了复杂性和出错的可能性。

核心思路：论文的核心思路是将LLM视为一个常识启发式函数，利用其输出作为爬山搜索的指导。通过提示LLM生成解决方案的估计，可以更有效地引导搜索过程，避免陷入局部最优解。这种方法充分利用了LLM的知识，同时避免了直接依赖LLM生成完整计划的困难。

技术框架：整体框架包含以下几个主要步骤：1) 使用自然语言描述的任务作为输入；2) 提示LLM生成一个解决方案的估计；3) 使用LLM的输出作为爬山搜索的启发式函数；4) 通过爬山搜索算法，逐步优化计划，直到找到一个可执行的解决方案。整个过程无需中间语言，直接在原始表示空间中进行操作。

关键创新：最重要的创新点在于将LLM的输出作为启发式函数，而不是直接生成计划。这种方法结合了LLM的知识和传统搜索算法的优点，避免了LLM生成计划的不可靠性，同时利用了LLM的语义理解能力。此外，无需中间语言翻译也简化了流程，提高了效率。

关键设计：关键设计包括：1) 提示工程：如何设计有效的提示，引导LLM生成有用的解决方案估计；2) 启发式函数：如何将LLM的输出转化为有效的启发式函数，指导爬山搜索；3) 爬山搜索算法：选择合适的爬山搜索算法，并调整参数以获得最佳性能。论文中所有动作都以其原始表示进行编码，避免了翻译步骤。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在常见的家庭环境中，任务成功率超过了类似系统22个百分点，并且生成的计划始终可执行。这一显著的提升表明，将LLM作为启发式函数是一种有效的策略，可以充分利用LLM的知识，同时避免其生成计划的局限性。无需中间语言翻译也简化了流程，提高了效率。

🎯 应用场景

该研究成果可应用于家庭机器人、智能家居等领域，帮助机器人更好地理解人类指令，并制定合理的行动计划。通过结合LLM的常识知识和传统规划算法，可以提高机器人的自主性和适应性，使其能够更好地服务于人类生活。未来，该方法还可以扩展到更复杂的规划任务和更广泛的应用场景。

📄 摘要（原文）

While systems designed for solving planning tasks vastly outperform Large Language Models (LLMs) in this domain, they usually discard the rich semantic information embedded within task descriptions. In contrast, LLMs possess parametrised knowledge across a wide range of topics, enabling them to leverage the natural language descriptions of planning tasks in their solutions. However, current research in this direction faces challenges in generating correct and executable plans. Furthermore, these approaches depend on the LLM to output solutions in an intermediate language, which must be translated into the representation language of the planning task. We introduce a novel planning method, which leverages the parametrised knowledge of LLMs by using their output as a heuristic for Hill-Climbing Search. This approach is further enhanced by prompting the LLM to generate a solution estimate to guide the search. Our method outperforms the task success rate of similar systems within a common household environment by 22 percentage points, with consistently executable plans. All actions are encoded in their original representation, demonstrating that strong results can be achieved without an intermediate language, thus eliminating the need for a translation step.

Large Language Models as Common-Sense Heuristics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理