AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents

📄 arXiv: 2407.04363v3 📥 PDF

作者: Petr Anokhin, Nikita Semenov, Artyom Sorokin, Dmitry Evseev, Andrey Kravchenko, Mikhail Burtsev, Evgeny Burnaev

分类: cs.AI

发布日期: 2024-07-05 (更新: 2025-05-15)

备注: Code for this work is avaliable at https://github.com/AIRI-Institute/AriGraph


💡 一句话要点

AriGraph:利用情景记忆学习知识图谱世界模型,提升LLM Agent能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 知识图谱 情景记忆 世界模型 文本游戏 多跳问答

📋 核心要点

  1. 现有LLM Agent依赖非结构化记忆表示,难以进行复杂推理和规划,限制了其在复杂环境中的决策能力。
  2. AriGraph通过构建和更新一个整合语义记忆和情景记忆的记忆图,为Agent提供结构化的知识表示,促进推理和规划。
  3. 实验表明,Ariadne Agent在复杂文本游戏中显著优于传统记忆方法和强化学习基线,并在多跳问答中表现出竞争力。

📝 摘要(中文)

大型语言模型(LLMs)的进步为开发自主Agent奠定了基础。借助合适的工具,这些Agent可以通过积累和更新知识来学习解决新环境中的任务。目前基于LLM的Agent通常使用完整的历史观测、摘要或检索增强来处理过去的经验。然而,这些非结构化的记忆表示不利于复杂决策所需的推理和规划。本研究提出了AriGraph,一种新颖的方法,Agent在探索环境时构建和更新一个整合了语义记忆和情景记忆的记忆图。实验表明,Ariadne LLM Agent(由所提出的记忆架构增强,并结合了规划和决策能力)能够有效地处理交互式文本游戏环境中的复杂任务,这些任务甚至对人类玩家来说也很困难。结果表明,我们的方法在各种复杂程度的问题中明显优于其他已建立的记忆方法和强大的强化学习基线。此外,AriGraph在静态多跳问答方面表现出与专用知识图谱方法相当的性能。

🔬 方法详解

问题定义:现有基于LLM的Agent在处理复杂任务时,面临着记忆表示的挑战。它们通常依赖于历史观测的完整记录、摘要或检索增强,这些方法缺乏结构化的知识表示,难以进行有效的推理和规划。这限制了Agent在需要长期记忆和复杂决策的环境中的表现。

核心思路:AriGraph的核心思路是构建一个知识图谱世界模型,该模型能够整合语义记忆和情景记忆。通过将Agent的经验表示为图结构,可以更有效地进行推理和规划。这种结构化的记忆表示允许Agent更好地理解环境,并做出更明智的决策。

技术框架:AriGraph的整体架构包含以下几个主要模块:1) 环境交互模块:Agent与环境进行交互,获取观测信息。2) 记忆图构建模块:将观测信息转化为图节点和边,构建记忆图。节点表示实体或概念,边表示它们之间的关系。3) 记忆图更新模块:根据新的观测信息,更新记忆图,包括添加新的节点和边,以及更新现有节点和边的属性。4) 规划和决策模块:利用记忆图进行规划和决策,选择合适的行动。Ariadne Agent在此基础上,利用LLM进行规划和决策。

关键创新:AriGraph的关键创新在于将知识图谱作为Agent的长期记忆,并结合了语义记忆和情景记忆。与传统的记忆方法相比,AriGraph能够提供更结构化、更易于推理的知识表示。此外,AriGraph还提出了一种新的记忆图更新机制,能够有效地整合新的信息,并保持记忆图的一致性。

关键设计:AriGraph使用LLM来提取观测信息中的实体和关系,并将它们添加到记忆图中。记忆图中的节点和边都具有属性,例如时间戳和重要性。记忆图更新模块使用一种基于注意力的机制来选择需要更新的节点和边。规划和决策模块使用一种基于图搜索的算法来找到最佳的行动序列。损失函数的设计旨在鼓励Agent构建更准确、更完整的记忆图。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,Ariadne Agent在交互式文本游戏环境中显著优于其他记忆方法和强化学习基线。例如,在某些任务中,Ariadne Agent的成功率比最强的基线高出20%以上。此外,AriGraph在静态多跳问答方面表现出与专用知识图谱方法相当的性能,证明了其在知识推理方面的能力。

🎯 应用场景

AriGraph具有广泛的应用前景,例如在机器人导航、智能助手、游戏AI等领域。它可以帮助Agent更好地理解环境,做出更明智的决策,并解决更复杂的任务。未来,可以将AriGraph应用于更复杂的环境和任务,例如自动驾驶、医疗诊断等。

📄 摘要(原文)

Advancements in the capabilities of Large Language Models (LLMs) have created a promising foundation for developing autonomous agents. With the right tools, these agents could learn to solve tasks in new environments by accumulating and updating their knowledge. Current LLM-based agents process past experiences using a full history of observations, summarization, retrieval augmentation. However, these unstructured memory representations do not facilitate the reasoning and planning essential for complex decision-making. In our study, we introduce AriGraph, a novel method wherein the agent constructs and updates a memory graph that integrates semantic and episodic memories while exploring the environment. We demonstrate that our Ariadne LLM agent, consisting of the proposed memory architecture augmented with planning and decision-making, effectively handles complex tasks within interactive text game environments difficult even for human players. Results show that our approach markedly outperforms other established memory methods and strong RL baselines in a range of problems of varying complexity. Additionally, AriGraph demonstrates competitive performance compared to dedicated knowledge graph-based methods in static multi-hop question-answering.