A Close Look At World Model Recovery In Supervised Fine-Tuned LLM Planners

📄 arXiv: 2606.03685v1 📥 PDF

作者: Patrick Emami, Nan Qiang, Peter Graf

分类: cs.LG, cs.AI

发布日期: 2026-06-02

备注: 17 pages. Under review at TMLR


💡 一句话要点

提出可解释性实验以提升大语言模型规划能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 监督微调 经典规划 可解释性 世界模型 内部表示 状态空间

📋 核心要点

  1. 现有方法在经典规划问题的复杂性和端到端生成计划的挑战下,难以探讨LLMs是否能有效表示和推理规划问题。
  2. 论文通过设计可解释性实验,分析微调LLMs的内部表示和生成能力,以探讨世界模型的恢复。
  3. 研究结果表明,SFT能有效编码动作有效性,且更广泛的状态空间覆盖能提高世界模型的恢复准确性。

📝 摘要(中文)

监督微调(SFT)能够改善大语言模型(LLMs)的端到端经典规划能力,但这些模型是否能够学习表示和推理所解决的规划问题仍然不明确。本文设计并实施了一系列可解释性实验,全面探讨了通过检查微调LLMs的内部表示和生成能力来恢复世界模型。研究发现,SFT能够使LLMs线性编码动作有效性和某些状态谓词,尽管某些模型在使用输出概率分类动作有效性方面存在困难,但仍能学习到有效与无效动作的内部表示。此外,在微调过程中,覆盖更广泛状态空间(如随机游走数据)有助于更准确地恢复底层世界模型。总结而言,本研究为规划LLMs应用可解释性技术提供了方法,并为LLMs中知识的表示提供了新的见解。

🔬 方法详解

问题定义:本文旨在探讨大语言模型在经典规划问题中是否能够有效学习和表示规划问题的世界模型。现有方法在处理复杂规划问题时面临挑战,难以评估模型的推理能力。

核心思路:通过设计一系列可解释性实验,全面分析微调后的LLMs的内部表示和生成能力,以验证其对世界模型的恢复能力。这样的设计旨在揭示模型在规划问题中的知识表示方式。

技术框架:研究采用了微调LLMs的框架,主要包括数据准备、模型微调、可解释性分析和结果评估四个阶段。数据准备阶段涉及有效动作序列的收集,微调阶段则利用这些序列对模型进行训练。可解释性分析通过内部表示和生成能力的评估来进行。

关键创新:本研究的创新点在于通过可解释性实验系统性地探讨了LLMs在经典规划中的世界模型恢复能力,揭示了模型在动作有效性分类中的内部表示能力,这在现有文献中尚属首次。

关键设计:在微调过程中,采用了有效动作序列作为训练数据,并引入随机游走数据以扩展状态空间覆盖,优化了模型的学习效果。损失函数设计上,关注于动作有效性和状态谓词的线性编码,确保模型能够有效区分有效与无效动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,经过监督微调的LLMs在动作有效性编码方面表现出显著提升,能够有效区分有效与无效动作。此外,利用随机游走数据进行微调后,模型在世界模型恢复的准确性上有明显改善,具体提升幅度未知。

🎯 应用场景

该研究的潜在应用领域包括自动化规划、机器人控制和智能决策系统。通过提升LLMs在规划问题中的表现,能够为复杂任务的自动化解决方案提供更强大的支持,进而推动智能系统的实际应用与发展。

📄 摘要(原文)

Supervised fine-tuning (SFT) improves end-to-end classical planning in large language models (LLMs), but do these models also learn to represent and reason about the planning problems they are solving? Due to the relative complexity of classical planning problems and the challenge that end-to-end plan generation poses for LLMs, it has been difficult to explore this question. In our work, we devise and perform a series of interpretability experiments that holistically interrogate world model recovery by examining both internal representations and generative capabilities of fine-tuned LLMs. We find that: a) Supervised fine-tuning on valid action sequences enables LLMs to linearly encode action validity and some state predicates. b) Models that struggle to use output probabilities for classifying action validity may still learn internal representations that separate valid from invalid actions. c) Broader state space coverage during fine-tuning, such as from random walk data, yields more accurate recovery of the underlying world model. In summary, this work contributes a recipe for applying interpretability techniques to planning LLMs and generates insights that shed light on open questions about how knowledge is represented in LLMs.