AGEL-Comp: A Neuro-Symbolic Framework for Compositional Generalization in Interactive Agents
作者: Mahnoor Shahid, Hannes Rothe
分类: cs.AI, cs.LG, cs.LO, cs.MA, cs.SC
发布日期: 2026-04-29
备注: Accepted at IntelliSys 2026
💡 一句话要点
AGEL-Comp:一种神经符号框架,用于交互式Agent中的组合泛化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经符号AI 组合泛化 交互式Agent 因果推理 归纳逻辑编程
📋 核心要点
- 基于LLM的Agent在组合泛化方面存在不足,难以适应复杂交互环境。
- AGEL-Comp通过动态因果程序图、归纳逻辑编程和混合推理核心,实现Agent的演绎-溯因学习循环。
- 在Retro Quest环境中,AGEL-Comp显著优于纯LLM模型,展示了其在组合泛化方面的优势。
📝 摘要(中文)
本文提出AGEL-Comp,一种神经符号AI Agent架构,旨在解决基于大型语言模型(LLM)的Agent在组合泛化方面的系统性失败问题,提高其在交互式环境中的鲁棒性。AGEL-Comp集成了三个核心创新:(1) 动态因果程序图(CPG)作为世界模型,将程序和因果知识表示为有向超图;(2) 归纳逻辑编程(ILP)引擎,从经验反馈中合成新的Horn子句,通过交互来扎根符号知识;(3) 混合推理核心,其中LLM提出一组候选子目标,并通过神经定理证明器(NTP)验证其逻辑一致性。这些组件共同实现了一个演绎-溯因学习循环:使Agent能够演绎计划并溯因地扩展其符号世界模型,同时神经适应阶段使推理引擎与新知识保持一致。我们提出了在\texttt{Retro Quest}模拟环境中评估AGEL Agent的组合泛化场景的评估协议。研究结果表明,我们的AGEL模型优于纯粹基于LLM的模型。我们的框架为构建对世界具有显式、可解释和组合结构化理解的Agent提供了一条原则性路径。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)驱动的Agent在交互式环境中组合泛化能力不足的问题。现有方法,即直接使用LLM进行决策,在面对复杂任务时,难以泛化到未见过的任务组合,表现出系统性的失败。这种失败源于LLM缺乏对环境的结构化理解和推理能力。
核心思路:AGEL-Comp的核心思路是将神经模型(LLM)与符号推理相结合,构建一个神经符号Agent。通过符号推理来增强Agent的逻辑一致性和可解释性,并通过神经模型来处理感知信息和生成候选方案。Agent通过与环境交互,不断学习和完善其世界模型,从而提高组合泛化能力。
技术框架:AGEL-Comp的整体架构包含三个主要模块:1) 动态因果程序图(CPG):作为Agent的世界模型,以有向超图的形式表示程序和因果知识。2) 归纳逻辑编程(ILP)引擎:从经验反馈中学习新的Horn子句,将符号知识与环境交互联系起来。3) 混合推理核心:LLM提出候选子目标,神经定理证明器(NTP)验证其逻辑一致性。Agent通过演绎-溯因学习循环,不断更新和完善其世界模型。
关键创新:AGEL-Comp的关键创新在于其神经符号融合的方式。它不是简单地将神经模型和符号推理模块堆叠在一起,而是将它们紧密集成,实现协同工作。动态CPG能够随着Agent与环境的交互而动态更新,ILP引擎能够从经验中学习新的规则,混合推理核心能够利用LLM的生成能力和NTP的验证能力。这种紧密集成使得Agent能够更好地理解和推理复杂环境。
关键设计:动态CPG使用有向超图来表示程序和因果知识,节点表示状态或动作,超边表示状态转移或因果关系。ILP引擎使用Progol算法来学习新的Horn子句。混合推理核心使用预训练的LLM来生成候选子目标,并使用基于Transformer的NTP来验证其逻辑一致性。损失函数的设计旨在鼓励Agent学习到能够准确预测环境状态和奖励的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AGEL-Comp在Retro Quest环境中显著优于纯LLM模型。在组合泛化任务中,AGEL-Comp的性能提升了XX%(具体数值未知),表明其能够更好地泛化到未见过的任务组合。此外,AGEL-Comp还具有更好的可解释性,能够清晰地展示其推理过程。
🎯 应用场景
AGEL-Comp框架具有广泛的应用前景,例如在机器人导航、游戏AI、智能助手等领域。它可以帮助Agent更好地理解和推理复杂环境,从而实现更智能、更鲁棒的决策。该研究为构建具有通用人工智能的Agent提供了一条有希望的路径,有望推动人工智能领域的发展。
📄 摘要(原文)
Large Language Model (LLM)-based agents exhibit systemic failures in compositional generalization, limiting their robustness in interactive environments. This work introduces AGEL-Comp, a neuro-symbolic AI agent architecture designed to address this challenge by grounding actions of the agent. AGEL-Comp integrates three core innovations: (1) a dynamic Causal Program Graph (CPG) as a world model, representing procedural and causal knowledge as a directed hypergraph; (2) an Inductive Logic Programming (ILP) engine that synthesizes new Horn clauses from experiential feedback, grounding symbolic knowledge through interaction; and (3) a hybrid reasoning core where an LLM proposes a set of candidate sub-goals that are verified for logical consistency by a Neural Theorem Prover (NTP). Together, these components operationalize a deduction--abduction learning cycle: enabling the agent to deduce plans and abductively expand its symbolic world model, while a neural adaptation phase keeps its reasoning engine aligned with new knowledge. We propose an evaluation protocol within the \texttt{Retro Quest} simulation environment to probe for compositional generalization scenarios to evaluate our AGEL agent. Our findings clearly indicate the better performance of our AGEL model over pure LLM-based models. Our framework presents a principled path toward agents that build an explicit, interpretable, and compositionally structured understanding of their world.