SCOPE: Language Models as One-Time Teacher for Hierarchical Planning in Text Environments

📄 arXiv: 2512.09897v1 📥 PDF

作者: Haoye Lu, Pavan Seshadri, Kaheer Suleman

分类: cs.AI, cs.CL

发布日期: 2025-12-10


💡 一句话要点

SCOPE:利用语言模型一次性生成子目标,用于文本环境中的分层规划。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本环境规划 分层规划 大型语言模型 知识蒸馏 子目标生成

📋 核心要点

  1. 现有文本环境规划方法依赖频繁查询LLM,计算成本高,且LLM参数固定,无法针对特定任务优化。
  2. SCOPE方法通过LLM一次性生成子目标,预训练轻量级学生模型,避免重复查询,提高效率。
  3. 实验表明,SCOPE在TextCraft环境中优于ADaPT,成功率提升至0.56,推理时间显著降低至3.0秒。

📝 摘要(中文)

在复杂的、基于文本的环境中进行长期规划面临着开放式动作空间、模糊的观察和稀疏的反馈等重大挑战。最近的研究表明,大型语言模型(LLM)编码了关于世界的丰富的语义知识,这对于指导智能体在高层次推理和规划中非常有价值,无论是在具身环境还是纯文本环境中。然而,现有的方法通常严重依赖于在训练和推理期间查询LLM,这使得它们计算成本高昂且难以有效部署。此外,这些方法通常采用预训练的、未修改的LLM,其参数在整个训练过程中保持固定,没有机会适应目标任务。为了解决这些限制,我们引入了SCOPE(用于高效规划的子目标条件预训练),这是一种一次性的分层规划器,仅在初始化时利用LLM生成的子目标来预训练一个轻量级的学生模型。与先前通过重复提示模型以自适应地生成子目标来提炼LLM知识的方法不同,我们的方法直接从示例轨迹中导出子目标。这种设计消除了重复LLM查询的需要,显著提高了效率,但代价是降低了解释性,并可能产生次优的子目标。尽管存在次优性,但我们在TextCraft环境中的结果表明,LLM生成的子目标仍然可以作为基于文本的规划任务中分层目标分解的强大起点。与基于LLM的分层智能体ADaPT(Prasad et al., 2024)相比,ADaPT的成功率为0.52,而我们的方法达到了0.56,并将推理时间从164.4秒减少到仅3.0秒。

🔬 方法详解

问题定义:论文旨在解决文本环境中长期规划任务中,现有方法过度依赖大型语言模型(LLM)导致的计算效率低下和任务适应性不足的问题。现有方法通常在训练和推理过程中反复查询LLM生成子目标,这带来了巨大的计算开销,限制了其在实际场景中的应用。此外,这些方法通常使用未经调整的LLM,无法针对特定任务进行优化,导致性能受限。

核心思路:SCOPE的核心思路是利用LLM的知识一次性生成子目标,然后使用这些子目标来预训练一个轻量级的学生模型。这种方法避免了在训练和推理过程中重复查询LLM,从而显著提高了计算效率。通过将LLM的知识蒸馏到学生模型中,SCOPE能够在保持性能的同时,降低计算成本。

技术框架:SCOPE的技术框架主要包含以下几个阶段:1) LLM子目标生成:使用LLM从示例轨迹中提取子目标。2) 学生模型预训练:使用生成的子目标来预训练一个轻量级的学生模型。3) 学生模型微调(可选):根据具体任务对学生模型进行微调。整体流程是先利用LLM的知识,然后将这些知识转移到更高效的学生模型中。

关键创新:SCOPE最重要的技术创新点在于其“一次性”子目标生成策略。与现有方法不同,SCOPE仅在初始化阶段使用LLM生成子目标,避免了在训练和推理过程中重复查询LLM。这种策略显著提高了计算效率,使得SCOPE能够更高效地进行文本环境规划。与现有方法的本质区别在于,SCOPE将LLM视为一个“一次性教师”,而不是一个持续的顾问。

关键设计:SCOPE的关键设计包括:1) 子目标提取方法:论文可能采用某种启发式方法或学习算法从示例轨迹中提取子目标。2) 学生模型结构:学生模型通常是一个轻量级的神经网络,例如LSTM或Transformer。3) 预训练目标函数:预训练目标函数旨在使学生模型能够根据当前状态预测正确的子目标。4) 微调策略:如果需要,可以使用强化学习或监督学习方法对学生模型进行微调,以适应特定任务。

🖼️ 关键图片

img_0

📊 实验亮点

SCOPE在TextCraft环境中取得了显著的性能提升。与基线方法ADaPT相比,SCOPE的成功率从0.52提高到0.56,提升了约7.7%。更重要的是,SCOPE的推理时间从164.4秒大幅降低到3.0秒,降低了约98.2%。这表明SCOPE能够在保持甚至提高性能的同时,显著提高计算效率。

🎯 应用场景

SCOPE方法在文本游戏、虚拟助手、任务型对话系统等领域具有广泛的应用前景。它可以用于构建更高效、更智能的文本环境智能体,例如,在文本游戏中,智能体可以利用SCOPE进行长期规划,完成复杂的任务;在虚拟助手和任务型对话系统中,智能体可以利用SCOPE分解用户请求,逐步完成任务。SCOPE的优势在于其高效性,使得它能够部署在资源受限的设备上。

📄 摘要(原文)

Long-term planning in complex, text-based environments presents significant challenges due to open-ended action spaces, ambiguous observations, and sparse feedback. Recent research suggests that large language models (LLMs) encode rich semantic knowledge about the world, which can be valuable for guiding agents in high-level reasoning and planning across both embodied and purely textual settings. However, existing approaches often depend heavily on querying LLMs during training and inference, making them computationally expensive and difficult to deploy efficiently. In addition, these methods typically employ a pretrained, unaltered LLM whose parameters remain fixed throughout training, providing no opportunity for adaptation to the target task. To address these limitations, we introduce SCOPE (Subgoal-COnditioned Pretraining for Efficient planning), a one-shot hierarchical planner that leverages LLM-generated subgoals only at initialization to pretrain a lightweight student model. Unlike prior approaches that distill LLM knowledge by repeatedly prompting the model to adaptively generate subgoals during training, our method derives subgoals directly from example trajectories. This design removes the need for repeated LLM queries, significantly improving efficiency, though at the cost of reduced explainability and potentially suboptimal subgoals. Despite their suboptimality, our results on the TextCraft environment show that LLM-generated subgoals can still serve as a strong starting point for hierarchical goal decomposition in text-based planning tasks. Compared to the LLM-based hierarchical agent ADaPT (Prasad et al., 2024), which achieves a 0.52 success rate, our method reaches 0.56 and reduces inference time from 164.4 seconds to just 3.0 seconds.