Learning Hierarchical Procedural Memory for LLM Agents through Bayesian Selection and Contrastive Refinement

📄 arXiv: 2512.18950v1 📥 PDF

作者: Saman Forouzandeh, Wei Peng, Parham Moradi, Xinghuo Yu, Mahdi Jalili

分类: cs.LG, cs.AI

发布日期: 2025-12-22

备注: Accepted at The 25th International Conference on Autonomous Agents and Multi-Agent Systems (AAMAS 2026). 21 pages including references, with 7 figures and 8 tables. Code is publicly available at the authors GitHub repository: https://github.com/S-Forouzandeh/MACLA-LLM-Agents-AAMAS-Conference


💡 一句话要点

MACLA:通过贝叶斯选择和对比精炼学习LLM Agent的分层程序记忆

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 程序记忆 贝叶斯选择 对比学习 分层记忆 强化学习 知识表示

📋 核心要点

  1. 现有LLM Agent在复杂任务中面临泛化性差、样本效率低和可解释性弱等挑战,难以适应新环境。
  2. MACLA框架通过维护外部分层程序记忆,解耦推理和学习,利用贝叶斯选择和对比精炼提升Agent性能。
  3. 实验表明,MACLA在多个基准测试中显著优于现有方法,尤其在未见任务上表现出良好的泛化能力。

📝 摘要(中文)

本文提出MACLA,一个将推理与学习解耦的框架,它维护一个冻结的大语言模型,并在外部分层程序记忆中执行所有适应。MACLA从轨迹中提取可重用的程序,通过贝叶斯后验跟踪可靠性,通过期望效用评分选择动作,并通过对比成功和失败来改进程序。在四个基准测试(ALFWorld、WebShop、TravelPlanner、InterCodeSQL)中,MACLA实现了78.1%的平均性能,优于所有基线。在ALFWorld的未见任务中,MACLA达到90.3%的性能,具有3.1%的正泛化能力。该系统在56秒内构建记忆,比最先进的LLM参数训练基线快2800倍,并将2851条轨迹压缩成187个程序。实验结果表明,具有贝叶斯选择和对比精炼的结构化外部记忆能够实现样本高效、可解释且持续改进的Agent,而无需LLM参数更新。

🔬 方法详解

问题定义:现有的大语言模型Agent在处理复杂任务时,通常需要大量的训练数据才能达到较好的性能,且模型参数的更新成本很高。此外,由于缺乏明确的程序化知识表示,Agent的决策过程难以解释,泛化能力也受到限制。因此,如何提高LLM Agent的样本效率、可解释性和泛化能力是一个重要的研究问题。

核心思路:MACLA的核心思路是将LLM的推理能力与外部的程序记忆学习相结合。LLM负责提供通用的知识和推理能力,而外部程序记忆则负责存储和学习特定任务的程序化知识。通过贝叶斯选择机制,Agent能够选择最可靠的程序来执行动作,并通过对比学习来不断改进程序记忆。这种解耦的设计使得Agent能够在不更新LLM参数的情况下,快速适应新的任务和环境。

技术框架:MACLA框架主要包含以下几个模块:1) 轨迹提取:从Agent的交互轨迹中提取可重用的程序。2) 可靠性跟踪:使用贝叶斯后验来跟踪每个程序的可靠性。3) 动作选择:通过期望效用评分来选择最佳动作。4) 程序精炼:通过对比成功和失败的经验来改进程序。整体流程是,Agent首先利用LLM进行初步的推理,然后从程序记忆中选择合适的程序来执行动作。执行动作后,Agent会根据结果更新程序的可靠性,并利用对比学习来改进程序。

关键创新:MACLA最重要的技术创新点在于其结构化的外部记忆和贝叶斯选择与对比精炼机制。结构化的外部记忆能够有效地存储和组织程序化知识,而贝叶斯选择机制能够根据程序的可靠性来选择最佳动作。对比精炼机制则能够通过对比成功和失败的经验来不断改进程序,从而提高Agent的性能。与现有方法相比,MACLA无需更新LLM参数,具有更高的样本效率和可解释性。

关键设计:MACLA的关键设计包括:1) 使用贝叶斯后验来表示程序的可靠性,并根据Agent的经验不断更新后验。2) 使用期望效用评分来选择最佳动作,其中效用函数考虑了程序的可靠性和动作的预期收益。3) 使用对比损失函数来训练程序,鼓励Agent选择成功的程序,避免失败的程序。具体的参数设置包括贝叶斯后验的先验分布、效用函数的权重以及对比损失函数的系数等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MACLA在ALFWorld、WebShop、TravelPlanner和InterCodeSQL四个基准测试中取得了显著的性能提升,平均性能达到78.1%,优于所有基线方法。在ALFWorld的未见任务中,MACLA达到了90.3%的性能,具有3.1%的正泛化能力。此外,MACLA构建记忆的速度比最先进的LLM参数训练基线快2800倍,并将2851条轨迹压缩成187个程序,表明其具有很高的样本效率。

🎯 应用场景

MACLA框架具有广泛的应用前景,例如可以应用于机器人控制、游戏AI、智能助手等领域。通过学习和利用程序化知识,Agent能够更好地理解和执行复杂任务,提高自动化水平和用户体验。此外,MACLA框架的可解释性也使其在需要透明决策的场景中具有优势,例如医疗诊断和金融风控。

📄 摘要(原文)

We present MACLA, a framework that decouples reasoning from learning by maintaining a frozen large language model while performing all adaptation in an external hierarchical procedural memory. MACLA extracts reusable procedures from trajectories, tracks reliability via Bayesian posteriors, selects actions through expected-utility scoring, and refines procedures by contrasting successes and failures. Across four benchmarks (ALFWorld, WebShop, TravelPlanner, InterCodeSQL), MACLA achieves 78.1 percent average performance, outperforming all baselines. On ALFWorld unseen tasks, MACLA reaches 90.3 percent with 3.1 percent positive generalization. The system constructs memory in 56 seconds, 2800 times faster than the state-of-the-art LLM parameter-training baseline, compressing 2851 trajectories into 187 procedures. Experimental results demonstrate that structured external memory with Bayesian selection and contrastive refinement enables sample-efficient, interpretable, and continually improving agents without LLM parameter updates.