Zero-Shot Goal Recognition with Large Language Models

作者: Kin Max Piamolini Gusmão, Nathan Gavenski, Nir Oren, Felipe Meneguzzi

分类: cs.AI

发布日期: 2026-05-14

备注: 9 pages, 1 figure, 1 table; appendix with 8 figures and 2 code listings (29 pages total); submitted to NeurIPS 2026

💡 一句话要点

利用大型语言模型实现零样本目标识别，探索其规划知识

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 目标识别 零样本学习 规划领域 溯因推理

📋 核心要点

现有方法依赖符号推理，而大型语言模型更擅长利用世界知识进行目标识别，但其能力尚未被充分探索。
论文提出利用大型语言模型进行零样本目标识别，通过评估与世界知识的一致性来识别目标。
实验结果表明，不同LLM在目标识别能力上存在差异，一些模型能有效整合证据，而另一些则依赖先验知识。

📝 摘要（中文）

本文首次系统性地评估了前沿大型语言模型（LLM）在经典PDDL基准测试中作为目标识别器的零样本能力。与依赖世界知识而非符号推理的经典规划任务不同，目标识别是一种更适合LLM优势的溯因任务，它侧重于评估与世界知识的一致性，而非生成新的动作序列。结果表明，LLM在目标识别方面的能力参差不齐：一些模型随着证据的增加而扩展，并在完全观察的情况下接近基于地标的准确性，而另一些模型则始终锚定于世界知识先验，而不管积累了多少证据。对模型推理轨迹的定性分析表明，这种差异反映了证据整合的根本差异，而非领域熟悉程度。这些发现将目标识别定位为LLM基础规划知识的一个原则性基准。

🔬 方法详解

问题定义：论文旨在解决在规划领域中，如何利用大型语言模型（LLM）进行零样本目标识别的问题。传统的目标识别方法通常依赖于符号推理和领域知识，而LLM在利用世界知识方面具有优势。现有的LLM在规划任务中表现出一定的能力，但这种能力更多地依赖于世界知识的利用，而非真正的符号推理。因此，如何评估LLM在目标识别任务中的真实能力，并探索其在规划领域的知识表示和推理能力，是本文要解决的核心问题。

核心思路：论文的核心思路是利用LLM评估给定观察序列与不同目标之间的一致性，从而实现目标识别。与生成动作序列的规划任务不同，目标识别是一种溯因任务，更侧重于评估观察结果与目标之间的合理性。通过将目标识别问题转化为LLM可以处理的文本形式，并评估LLM对不同目标的置信度，可以有效地利用LLM的世界知识和推理能力。这种方法避免了对LLM进行显式的符号推理训练，而是直接利用其预训练的知识进行目标识别。

技术框架：论文的技术框架主要包括以下几个步骤：1) 将规划领域和问题描述转化为文本形式，包括初始状态、动作描述和目标描述。2) 给定一个观察序列（一系列动作），将观察序列也转化为文本形式。3) 将目标描述和观察序列输入到LLM中，要求LLM评估观察序列与目标的一致性。4) 根据LLM的输出，计算每个目标的置信度，并选择置信度最高的目标作为识别结果。论文使用了不同的LLM进行实验，并比较了它们在不同领域和问题上的表现。

关键创新：论文的关键创新在于首次系统性地评估了LLM在零样本目标识别任务中的能力。与以往的研究不同，本文没有对LLM进行任何针对目标识别的训练，而是直接利用其预训练的知识进行目标识别。此外，论文还对不同LLM的推理轨迹进行了定性分析，揭示了它们在证据整合方面的差异。这些发现为评估LLM在规划领域的知识表示和推理能力提供了一个新的视角。

关键设计：论文的关键设计包括：1) 如何将规划领域和问题描述转化为LLM可以处理的文本形式。论文采用了标准的PDDL格式，并将其转化为自然语言描述。2) 如何评估LLM对不同目标的置信度。论文使用了LLM的输出概率作为置信度的度量。3) 如何处理不同长度的观察序列。论文采用了滑动窗口的方法，将长序列分割成多个短序列，并分别评估每个短序列与目标的一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同LLM在目标识别能力上存在显著差异。一些模型（如GPT-3）能够随着观察证据的增加而提高识别准确率，并在完全观察的情况下接近基于地标的准确率。而另一些模型（如GPT-2）则始终依赖于世界知识先验，无法有效整合观察证据。这些结果表明，LLM在目标识别方面的能力取决于其证据整合能力，而非领域熟悉程度。

🎯 应用场景

该研究成果可应用于机器人、智能助手等领域，帮助系统理解用户的意图和目标。例如，在人机协作场景中，机器人可以通过观察用户的行为，利用LLM识别用户的目标，并提供相应的帮助。此外，该研究还可以用于安全监控、异常检测等领域，通过识别异常行为的目标，及时发现潜在的安全威胁。未来，该研究有望推动LLM在规划和推理领域的更广泛应用。

📄 摘要（原文）

Large language models have recently reached near-parity with classical planners on well-known planning domains, yet this competence relies on world-knowledge exploitation rather than genuine symbolic reasoning. Goal recognition is a complementary abductive task structurally better suited to LLM strengths: it consists of evaluating consistency with world knowledge rather than generating novel action sequences. This paper provides the first systematic zero-shot evaluation of frontier LLMs as goal recognisers on key classical PDDL benchmarks. Our results show that LLM competence on goal recognition is uneven: some models scale with evidence and approach landmark-based accuracy at full observations, while others remain anchored to world-knowledge priors regardless of how much evidence accumulates. Qualitative analysis of model reasoning traces reveals that this divergence reflects a fundamental difference in evidence integration rather than domain familiarity. These findings position goal recognition as a principled benchmark for the foundational planning knowledge of LLMs.

Zero-Shot Goal Recognition with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理