From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents

📄 arXiv: 2602.04326v1 📥 PDF

作者: SeungWon Seo, SooBin Lim, SeongRae Noh, Haneul Kim, HyeongYeop Kang

分类: cs.AI, cs.CL, cs.MA

发布日期: 2026-02-04

备注: 31 pages, 10 figures, Accepted ICLR 2026


💡 一句话要点

提出PCE框架,将LLM推理转化为不确定性感知规划,提升具身智能体多智能体协作效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 多智能体协作 大型语言模型 不确定性感知 决策树 人机交互

📋 核心要点

  1. 现有具身智能体在多智能体协作中依赖频繁通信来缓解不确定性,导致高昂的token和时间成本。
  2. PCE框架将LLM推理中的假设转化为结构化决策树,通过评估路径的收益和成本来指导行动选择。
  3. 实验表明,PCE在多智能体任务中显著提升了成功率和效率,同时降低了通信需求,并提高了人类用户的信任度。

📝 摘要(中文)

在多智能体、部分可观测和去中心化环境中运行的具身智能体,必须在对隐藏物体和协作伙伴意图普遍存在不确定性的情况下进行规划和行动。最近将大型语言模型(LLM)应用于具身智能体的进展已经解决了许多长期存在的挑战,例如高层次目标分解和在线适应。然而,不确定性仍然主要通过频繁的智能体间通信来缓解。当涉及到人类伙伴时,这会产生大量的token和时间成本,并可能扰乱已建立的工作流程。我们引入了PCE,一个Planner-Composer-Evaluator框架,它将LLM推理轨迹中潜在的碎片化假设转化为结构化的决策树。内部节点编码环境假设,叶节点映射到行动;然后通过场景可能性、目标导向增益和执行成本对每个路径进行评分,以指导合理的行动选择,而无需大量通信。在两个具有挑战性的多智能体基准测试(C-WAH和TDW-MAT)和三个不同的LLM骨干网络上,PCE在成功率和任务效率方面始终优于以通信为中心的基线,同时显示出相当的token使用量。消融结果表明,即使应用PCE,通过扩展模型容量或推理深度获得的性能增益仍然存在,而PCE始终提高容量和推理深度范围内的基线,证实了结构化不确定性处理补充了这两种形式的扩展。一项用户研究进一步表明,PCE产生的通信模式被人类伙伴认为更有效和值得信赖。总之,这些结果为将潜在的LLM假设转化为可靠的不确定性感知规划策略建立了一条原则性路线。

🔬 方法详解

问题定义:现有具身智能体在多智能体协作环境中,面临着环境部分可观测、智能体意图不确定等问题。为了解决这些问题,现有方法通常依赖于频繁的智能体间通信,例如通过共享信息或请求帮助。然而,这种通信方式会带来显著的token消耗和时间延迟,尤其是在涉及人类智能体时,会影响协作效率和用户体验。因此,如何在减少通信的前提下,有效处理不确定性,是本文要解决的关键问题。

核心思路:本文的核心思路是将LLM的推理过程显式地建模为包含假设的决策树。LLM在推理过程中会产生许多潜在的假设,这些假设反映了对环境状态和协作智能体行为的推测。PCE框架将这些假设提取出来,构建成决策树的内部节点,而叶节点则对应于具体的行动。通过对决策树的每个路径进行评估,综合考虑场景可能性、目标导向增益和执行成本,从而选择最优的行动方案。这种方法避免了盲目的通信,而是基于对不确定性的结构化理解进行决策。

技术框架:PCE框架包含三个主要模块:Planner、Composer和Evaluator。Planner模块负责利用LLM生成初步的行动计划,并提取其中的假设。Composer模块将这些假设组织成决策树的结构,每个节点代表一个假设,每个分支代表一种可能的假设结果。Evaluator模块负责对决策树的每个路径进行评估,计算其得分。得分综合考虑了三个因素:场景可能性(Scenario Likelihood)、目标导向增益(Goal-Directed Gain)和执行成本(Execution Cost)。最终,选择得分最高的路径对应的行动作为最终执行的行动。

关键创新:PCE框架的关键创新在于将LLM的隐式推理过程显式地建模为包含假设的决策树,并利用结构化的方式对不确定性进行处理。与传统的基于通信的方法相比,PCE框架能够更有效地利用LLM的推理能力,减少不必要的通信,提高协作效率。此外,PCE框架还能够提高决策的透明性和可解释性,因为每个行动的选择都有明确的理由和依据。

关键设计:在PCE框架中,场景可能性、目标导向增益和执行成本的计算方式是关键的设计细节。场景可能性可以通过LLM对假设的置信度进行估计。目标导向增益可以通过评估行动对实现目标的贡献程度来计算。执行成本可以根据行动的复杂度和所需资源进行估计。此外,决策树的构建方式也会影响PCE框架的性能。例如,可以采用启发式搜索算法来优化决策树的结构,从而提高决策的效率和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在C-WAH和TDW-MAT两个多智能体基准测试中,PCE框架在成功率和任务效率方面始终优于以通信为中心的基线方法,同时保持了相当的token使用量。消融实验表明,PCE框架能够与模型规模和推理深度形成互补,进一步提升性能。用户研究表明,PCE框架产生的通信模式更有效,更值得人类伙伴信任。

🎯 应用场景

该研究成果可应用于各种多智能体协作场景,例如机器人协同作业、自动驾驶车辆编队、智能家居设备互联等。通过减少通信需求,提高协作效率,并增强系统的鲁棒性和可靠性。此外,该方法在人机协作方面也具有潜力,可以帮助智能体更好地理解人类意图,从而实现更自然、更高效的人机交互。

📄 摘要(原文)

Embodied agents operating in multi-agent, partially observable, and decentralized environments must plan and act despite pervasive uncertainty about hidden objects and collaborators' intentions. Recent advances in applying Large Language Models (LLMs) to embodied agents have addressed many long-standing challenges, such as high-level goal decomposition and online adaptation. Yet, uncertainty is still primarily mitigated through frequent inter-agent communication. This incurs substantial token and time costs, and can disrupt established workflows, when human partners are involved. We introduce PCE, a Planner-Composer-Evaluator framework that converts the fragmented assumptions latent in LLM reasoning traces into a structured decision tree. Internal nodes encode environment assumptions and leaves map to actions; each path is then scored by scenario likelihood, goal-directed gain, and execution cost to guide rational action selection without heavy communication. Across two challenging multi-agent benchmarks (C-WAH and TDW-MAT) and three diverse LLM backbones, PCE consistently outperforms communication-centric baselines in success rate and task efficiency while showing comparable token usage. Ablation results indicate that the performance gains obtained by scaling model capacity or reasoning depth persist even when PCE is applied, while PCE consistently raises the baseline across both capacity and reasoning-depth scales, confirming that structured uncertainty handling complements both forms of scaling. A user study further demonstrates that PCE produces communication patterns that human partners perceive as more efficient and trustworthy. Together, these results establish a principled route for turning latent LLM assumptions into reliable strategies for uncertainty-aware planning.