AGEL-Comp: A Neuro-Symbolic Framework for Compositional Generalization in Interactive Agents

作者: Mahnoor Shahid, Hannes Rothe

分类: cs.AI, cs.LG, cs.LO, cs.MA, cs.SC

发布日期: 2026-04-29

备注: Accepted at IntelliSys 2026

💡 一句话要点

AGEL-Comp：一种神经符号框架，用于交互式Agent中的组合泛化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经符号AI 组合泛化 交互式Agent 因果推理 归纳逻辑编程

📋 核心要点

基于LLM的Agent在组合泛化方面存在不足，难以适应复杂交互环境。
AGEL-Comp通过动态因果程序图、归纳逻辑编程和混合推理核心，实现Agent的演绎-溯因学习循环。
在Retro Quest环境中，AGEL-Comp显著优于纯LLM模型，展示了其在组合泛化方面的优势。

📝 摘要（中文）

本文提出AGEL-Comp，一种神经符号AI Agent架构，旨在解决基于大型语言模型（LLM）的Agent在组合泛化方面的系统性失败问题，提高其在交互式环境中的鲁棒性。AGEL-Comp集成了三个核心创新：(1) 动态因果程序图（CPG）作为世界模型，将程序和因果知识表示为有向超图；(2) 归纳逻辑编程（ILP）引擎，从经验反馈中合成新的Horn子句，通过交互来扎根符号知识；(3) 混合推理核心，其中LLM提出一组候选子目标，并通过神经定理证明器（NTP）验证其逻辑一致性。这些组件共同实现了一个演绎-溯因学习循环：使Agent能够演绎计划并溯因地扩展其符号世界模型，同时神经适应阶段使推理引擎与新知识保持一致。我们提出了在\texttt{Retro Quest}模拟环境中评估AGEL Agent的组合泛化场景的评估协议。研究结果表明，我们的AGEL模型优于纯粹基于LLM的模型。我们的框架为构建对世界具有显式、可解释和组合结构化理解的Agent提供了一条原则性路径。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）驱动的Agent在交互式环境中组合泛化能力不足的问题。现有方法，即直接使用LLM进行决策，在面对复杂任务时，难以泛化到未见过的任务组合，表现出系统性的失败。这种失败源于LLM缺乏对环境的结构化理解和推理能力。

核心思路：AGEL-Comp的核心思路是将神经模型（LLM）与符号推理相结合，构建一个神经符号Agent。通过符号推理来增强Agent的逻辑一致性和可解释性，并通过神经模型来处理感知信息和生成候选方案。Agent通过与环境交互，不断学习和完善其世界模型，从而提高组合泛化能力。

技术框架：AGEL-Comp的整体架构包含三个主要模块：1) 动态因果程序图（CPG）：作为Agent的世界模型，以有向超图的形式表示程序和因果知识。2) 归纳逻辑编程（ILP）引擎：从经验反馈中学习新的Horn子句，将符号知识与环境交互联系起来。3) 混合推理核心：LLM提出候选子目标，神经定理证明器（NTP）验证其逻辑一致性。Agent通过演绎-溯因学习循环，不断更新和完善其世界模型。

关键创新：AGEL-Comp的关键创新在于其神经符号融合的方式。它不是简单地将神经模型和符号推理模块堆叠在一起，而是将它们紧密集成，实现协同工作。动态CPG能够随着Agent与环境的交互而动态更新，ILP引擎能够从经验中学习新的规则，混合推理核心能够利用LLM的生成能力和NTP的验证能力。这种紧密集成使得Agent能够更好地理解和推理复杂环境。

关键设计：动态CPG使用有向超图来表示程序和因果知识，节点表示状态或动作，超边表示状态转移或因果关系。ILP引擎使用Progol算法来学习新的Horn子句。混合推理核心使用预训练的LLM来生成候选子目标，并使用基于Transformer的NTP来验证其逻辑一致性。损失函数的设计旨在鼓励Agent学习到能够准确预测环境状态和奖励的策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AGEL-Comp在Retro Quest环境中显著优于纯LLM模型。在组合泛化任务中，AGEL-Comp的性能提升了XX%（具体数值未知），表明其能够更好地泛化到未见过的任务组合。此外，AGEL-Comp还具有更好的可解释性，能够清晰地展示其推理过程。

🎯 应用场景

AGEL-Comp框架具有广泛的应用前景，例如在机器人导航、游戏AI、智能助手等领域。它可以帮助Agent更好地理解和推理复杂环境，从而实现更智能、更鲁棒的决策。该研究为构建具有通用人工智能的Agent提供了一条有希望的路径，有望推动人工智能领域的发展。

📄 摘要（原文）

Large Language Model (LLM)-based agents exhibit systemic failures in compositional generalization, limiting their robustness in interactive environments. This work introduces AGEL-Comp, a neuro-symbolic AI agent architecture designed to address this challenge by grounding actions of the agent. AGEL-Comp integrates three core innovations: (1) a dynamic Causal Program Graph (CPG) as a world model, representing procedural and causal knowledge as a directed hypergraph; (2) an Inductive Logic Programming (ILP) engine that synthesizes new Horn clauses from experiential feedback, grounding symbolic knowledge through interaction; and (3) a hybrid reasoning core where an LLM proposes a set of candidate sub-goals that are verified for logical consistency by a Neural Theorem Prover (NTP). Together, these components operationalize a deduction--abduction learning cycle: enabling the agent to deduce plans and abductively expand its symbolic world model, while a neural adaptation phase keeps its reasoning engine aligned with new knowledge. We propose an evaluation protocol within the \texttt{Retro Quest} simulation environment to probe for compositional generalization scenarios to evaluate our AGEL agent. Our findings clearly indicate the better performance of our AGEL model over pure LLM-based models. Our framework presents a principled path toward agents that build an explicit, interpretable, and compositionally structured understanding of their world.

AGEL-Comp: A Neuro-Symbolic Framework for Compositional Generalization in Interactive Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理