Zero-Shot Goal Recognition with Large Language Models

📄 arXiv: 2605.15333v1 📥 PDF

作者: Kin Max Piamolini Gusmão, Nathan Gavenski, Nir Oren, Felipe Meneguzzi

分类: cs.AI

发布日期: 2026-05-14

备注: 9 pages, 1 figure, 1 table; appendix with 8 figures and 2 code listings (29 pages total); submitted to NeurIPS 2026


💡 一句话要点

利用大型语言模型实现零样本目标识别,探索其规划知识

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 目标识别 零样本学习 规划领域 溯因推理

📋 核心要点

  1. 现有方法依赖符号推理,而大型语言模型更擅长利用世界知识进行目标识别,但其能力尚未被充分探索。
  2. 论文提出利用大型语言模型进行零样本目标识别,通过评估与世界知识的一致性来识别目标。
  3. 实验结果表明,不同LLM在目标识别能力上存在差异,一些模型能有效整合证据,而另一些则依赖先验知识。

📝 摘要(中文)

本文首次系统性地评估了前沿大型语言模型(LLM)在经典PDDL基准测试中作为目标识别器的零样本能力。与依赖世界知识而非符号推理的经典规划任务不同,目标识别是一种更适合LLM优势的溯因任务,它侧重于评估与世界知识的一致性,而非生成新的动作序列。结果表明,LLM在目标识别方面的能力参差不齐:一些模型随着证据的增加而扩展,并在完全观察的情况下接近基于地标的准确性,而另一些模型则始终锚定于世界知识先验,而不管积累了多少证据。对模型推理轨迹的定性分析表明,这种差异反映了证据整合的根本差异,而非领域熟悉程度。这些发现将目标识别定位为LLM基础规划知识的一个原则性基准。

🔬 方法详解

问题定义:论文旨在解决在规划领域中,如何利用大型语言模型(LLM)进行零样本目标识别的问题。传统的目标识别方法通常依赖于符号推理和领域知识,而LLM在利用世界知识方面具有优势。现有的LLM在规划任务中表现出一定的能力,但这种能力更多地依赖于世界知识的利用,而非真正的符号推理。因此,如何评估LLM在目标识别任务中的真实能力,并探索其在规划领域的知识表示和推理能力,是本文要解决的核心问题。

核心思路:论文的核心思路是利用LLM评估给定观察序列与不同目标之间的一致性,从而实现目标识别。与生成动作序列的规划任务不同,目标识别是一种溯因任务,更侧重于评估观察结果与目标之间的合理性。通过将目标识别问题转化为LLM可以处理的文本形式,并评估LLM对不同目标的置信度,可以有效地利用LLM的世界知识和推理能力。这种方法避免了对LLM进行显式的符号推理训练,而是直接利用其预训练的知识进行目标识别。

技术框架:论文的技术框架主要包括以下几个步骤:1) 将规划领域和问题描述转化为文本形式,包括初始状态、动作描述和目标描述。2) 给定一个观察序列(一系列动作),将观察序列也转化为文本形式。3) 将目标描述和观察序列输入到LLM中,要求LLM评估观察序列与目标的一致性。4) 根据LLM的输出,计算每个目标的置信度,并选择置信度最高的目标作为识别结果。论文使用了不同的LLM进行实验,并比较了它们在不同领域和问题上的表现。

关键创新:论文的关键创新在于首次系统性地评估了LLM在零样本目标识别任务中的能力。与以往的研究不同,本文没有对LLM进行任何针对目标识别的训练,而是直接利用其预训练的知识进行目标识别。此外,论文还对不同LLM的推理轨迹进行了定性分析,揭示了它们在证据整合方面的差异。这些发现为评估LLM在规划领域的知识表示和推理能力提供了一个新的视角。

关键设计:论文的关键设计包括:1) 如何将规划领域和问题描述转化为LLM可以处理的文本形式。论文采用了标准的PDDL格式,并将其转化为自然语言描述。2) 如何评估LLM对不同目标的置信度。论文使用了LLM的输出概率作为置信度的度量。3) 如何处理不同长度的观察序列。论文采用了滑动窗口的方法,将长序列分割成多个短序列,并分别评估每个短序列与目标的一致性。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

实验结果表明,不同LLM在目标识别能力上存在显著差异。一些模型(如GPT-3)能够随着观察证据的增加而提高识别准确率,并在完全观察的情况下接近基于地标的准确率。而另一些模型(如GPT-2)则始终依赖于世界知识先验,无法有效整合观察证据。这些结果表明,LLM在目标识别方面的能力取决于其证据整合能力,而非领域熟悉程度。

🎯 应用场景

该研究成果可应用于机器人、智能助手等领域,帮助系统理解用户的意图和目标。例如,在人机协作场景中,机器人可以通过观察用户的行为,利用LLM识别用户的目标,并提供相应的帮助。此外,该研究还可以用于安全监控、异常检测等领域,通过识别异常行为的目标,及时发现潜在的安全威胁。未来,该研究有望推动LLM在规划和推理领域的更广泛应用。

📄 摘要(原文)

Large language models have recently reached near-parity with classical planners on well-known planning domains, yet this competence relies on world-knowledge exploitation rather than genuine symbolic reasoning. Goal recognition is a complementary abductive task structurally better suited to LLM strengths: it consists of evaluating consistency with world knowledge rather than generating novel action sequences. This paper provides the first systematic zero-shot evaluation of frontier LLMs as goal recognisers on key classical PDDL benchmarks. Our results show that LLM competence on goal recognition is uneven: some models scale with evidence and approach landmark-based accuracy at full observations, while others remain anchored to world-knowledge priors regardless of how much evidence accumulates. Qualitative analysis of model reasoning traces reveals that this divergence reflects a fundamental difference in evidence integration rather than domain familiarity. These findings position goal recognition as a principled benchmark for the foundational planning knowledge of LLMs.