DUPLEX: Agentic Dual-System Planning via LLM-Driven Information Extraction

📄 arXiv: 2603.23909v1 📥 PDF

作者: Keru Hua, Ding Wang, Yaoying Gu, Xiaoguang Ma

分类: cs.AI

发布日期: 2026-03-25


💡 一句话要点

DUPLEX:利用LLM驱动的信息抽取实现Agentic双系统规划

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人任务规划 大型语言模型 神经符号结合 信息抽取 双系统架构

📋 核心要点

  1. 现有方法依赖LLM进行端到端规划,但LLM易出现幻觉和逻辑错误,导致长时程任务规划不可靠。
  2. DUPLEX架构限制LLM进行模式引导的信息抽取,将抽取结果转化为符号规划器可用的PDDL格式,实现神经符号结合。
  3. 实验表明,DUPLEX在经典和家庭规划领域显著优于现有LLM方法,提升了成功率和可靠性。

📝 摘要(中文)

大型语言模型(LLM)虽然为机器人任务规划提供了语义灵活性,但其易受幻觉和逻辑不一致性的影响,限制了其在长时程领域中的可靠性。为了弥合非结构化环境和严格的规划综合之间的差距,我们提出了DUPLEX,一种agentic双系统神经符号架构,它严格限制LLM进行模式引导的信息抽取,而不是端到端规划或代码生成。在我们的框架中,前馈快速系统利用轻量级LLM从自然语言中提取实体、关系等,并将其确定性地映射到规划领域定义语言(PDDL)问题文件,供经典符号规划器使用。为了解决复杂或欠指定场景,仅在规划失败时激活慢速系统,利用求解器诊断来驱动高容量LLM进行迭代反思和修复。在12个经典和家庭规划领域进行的广泛评估表明,DUPLEX在成功率和可靠性方面均显著优于现有的端到端和混合LLM基线。这些结果证实,关键不是让LLM更好地规划,而是将LLM限制在其擅长的部分——结构化语义基础——并将逻辑规划综合留给符号规划器。

🔬 方法详解

问题定义:现有方法直接使用LLM进行端到端任务规划,但LLM在复杂环境和长时程任务中容易产生幻觉和逻辑不一致,导致规划失败。现有混合方法也难以有效利用LLM的语义理解能力和符号规划器的逻辑推理能力。因此,需要一种更可靠、更高效的神经符号结合方法,将LLM的优势与符号规划器的优势结合起来。

核心思路:DUPLEX的核心思路是将LLM限制在它擅长的任务上,即从自然语言描述中提取结构化信息,而不是让它直接进行规划。通过将LLM提取的信息转化为符号规划器可以理解的PDDL格式,可以利用符号规划器进行可靠的逻辑推理和规划。同时,引入双系统架构,在规划失败时激活慢速系统,利用LLM进行反思和修复,提高系统的鲁棒性。

技术框架:DUPLEX包含两个主要系统:快速系统和慢速系统。快速系统使用轻量级LLM从自然语言描述中提取实体、关系等信息,并将其转化为PDDL问题文件。然后,使用经典符号规划器对PDDL问题进行求解,生成任务规划。如果规划失败,则激活慢速系统。慢速系统利用求解器的诊断信息,驱动高容量LLM进行迭代反思和修复,生成新的PDDL问题文件,并再次进行规划。整个过程形成一个闭环反馈系统。

关键创新:DUPLEX的关键创新在于其agentic双系统架构和对LLM角色的重新定义。它不是让LLM直接进行规划,而是将其限制在信息抽取任务上,并利用符号规划器进行逻辑推理。这种方法可以有效避免LLM的幻觉和逻辑错误,提高规划的可靠性。同时,双系统架构可以在规划失败时利用LLM进行反思和修复,提高系统的鲁棒性。

关键设计:DUPLEX的关键设计包括:1) 使用轻量级LLM进行快速信息抽取,提高效率;2) 使用经典符号规划器进行可靠的逻辑推理;3) 使用高容量LLM进行迭代反思和修复,提高鲁棒性;4) 使用求解器诊断信息驱动LLM的反思和修复过程,提高效率。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,DUPLEX在12个经典和家庭规划领域均显著优于现有的端到端和混合LLM基线。例如,在某些领域,DUPLEX的成功率比现有方法提高了20%以上。此外,DUPLEX的可靠性也得到了显著提高,减少了幻觉和逻辑错误。

🎯 应用场景

DUPLEX可应用于各种机器人任务规划场景,例如家庭服务机器人、工业机器人、自动驾驶等。它可以帮助机器人理解人类指令,并生成可靠的任务规划,从而提高机器人的自主性和智能化水平。该研究的成果也有助于推动神经符号人工智能的发展,为构建更可靠、更高效的人工智能系统提供新的思路。

📄 摘要(原文)

While Large Language Models (LLMs) provide semantic flexibility for robotic task planning, their susceptibility to hallucination and logical inconsistency limits their reliability in long-horizon domains. To bridge the gap between unstructured environments and rigorous plan synthesis, we propose DUPLEX, an agentic dual-system neuro-symbolic architecture that strictly confines the LLM to schema-guided information extraction rather than end-to-end planning or code generation. In our framework, a feed-forward Fast System utilizes a lightweight LLM to extract entities, relations etc. from natural language, deterministically mapping them into a Planning Domain Definition Language (PDDL) problem file for a classical symbolic planner. To resolve complex or underspecified scenarios, a Slow System is activated exclusively upon planning failure, leveraging solver diagnostics to drive a high-capacity LLM in iterative reflection and repair. Extensive evaluations across 12 classical and household planning domains demonstrate that DUPLEX significantly outperforms existing end-to-end and hybrid LLM baselines in both success rate and reliability. These results confirm that The key is not to make the LLM plan better, but to restrict the LLM to the part it is good at - structured semantic grounding - and leave logical plan synthesis to a symbolic planner.