Meta-Policy Reflexion: Reusable Reflective Memory and Rule Admissibility for Resource-Efficient LLM Agent

📄 arXiv: 2509.03990v2 📥 PDF

作者: Chunlong Wu, Ye Luo, Zhibo Qu, Min Wang

分类: cs.AI

发布日期: 2025-09-04 (更新: 2025-09-08)


💡 一句话要点

提出Meta-Policy Reflexion,提升LLM Agent在资源受限环境下的跨任务适应性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 反思学习 元策略 知识迁移 规则推理 资源效率 跨任务学习

📋 核心要点

  1. 现有LLM Agent存在重复失败、探索效率低和跨任务适应性差等问题,阻碍了其在复杂环境中的应用。
  2. Meta-Policy Reflexion (MPR) 通过构建可重用的 Meta-Policy Memory (MPM) 来存储和利用跨任务的经验教训。
  3. 实验表明,MPR 在执行准确性和鲁棒性方面优于 Reflexion 基线,并能通过规则可采纳性进一步提升稳定性。

📝 摘要(中文)

大型语言模型(LLM)Agent在单任务上表现出色,但常出现重复失败、探索效率低和跨任务适应性有限的问题。现有的反思策略(如Reflexion、ReAct)虽然改善了单次行为,但通常产生短暂的、特定于任务的轨迹,无法跨任务重用。基于强化学习的替代方案可以产生可转移的策略,但需要大量的参数更新和计算。本文提出了Meta-Policy Reflexion(MPR):一种混合框架,将LLM生成的反思整合到结构化的、类似谓词的Meta-Policy Memory(MPM)中,并通过软记忆引导解码和硬规则可采纳性检查(HAC)两种互补机制在推理时应用该记忆。MPR(i)无需模型权重更新即可外部化可重用的纠正知识,(ii)强制执行领域约束以减少不安全或无效的操作,以及(iii)保留了基于语言的反思的适应性。本文形式化了MPM表示,提出了更新和解码算法,并在基于文本的Agent环境中验证了该方法(基于AlfWorld)。实验结果表明,与Reflexion基线相比,执行准确性和鲁棒性得到了持续提高;规则可采纳性进一步提高了稳定性。本文分析了解释这些收益的机制,讨论了可扩展性和失效模式,并概述了多模态和多Agent扩展的未来方向。

🔬 方法详解

问题定义:现有LLM Agent在复杂任务中表现出重复失败,探索效率低下,且难以跨任务迁移知识。现有的反思方法通常产生特定于任务的临时轨迹,无法在不同任务之间共享和重用。强化学习方法虽然可以学习可迁移的策略,但需要大量的计算资源和参数更新,不适用于资源受限的场景。

核心思路:MPR的核心思想是将LLM生成的反思知识提炼成一种结构化的、可重用的Meta-Policy Memory (MPM)。MPM存储了agent在不同任务中学习到的经验教训,并将其表示为类似谓词的规则。在推理时,MPR利用MPM中的知识来指导agent的行动,从而提高其执行效率和鲁棒性。这种方法无需模型权重更新,即可实现知识的迁移和重用。

技术框架:MPR框架主要包含以下几个模块:1) LLM Agent:负责与环境交互并生成行动。2) Reflection Module:利用LLM对agent的行动进行反思,并生成反馈。3) Meta-Policy Memory (MPM):存储从反思中提取的知识,以结构化的形式表示。4) Memory-Guided Decoding:利用MPM中的知识来指导LLM Agent的行动生成。5) Hard Rule Admissibility Checks (HAC):强制执行领域约束,过滤掉不安全或无效的行动。

关键创新:MPR的关键创新在于提出了Meta-Policy Memory (MPM) 的概念,并设计了相应的更新和解码算法。MPM允许agent将从不同任务中学习到的知识进行整合和重用,从而提高了其跨任务适应性。此外,MPR还引入了Hard Rule Admissibility Checks (HAC),以确保agent的行动符合领域约束,从而提高了其安全性和可靠性。与现有方法相比,MPR无需模型权重更新即可实现知识的迁移和重用,更加高效和灵活。

关键设计:MPM采用类似谓词的结构来表示知识,例如“如果agent处于状态S,并且采取了行动A,那么结果是R”。MPM的更新算法根据LLM生成的反思反馈来更新MPM中的规则。Memory-Guided Decoding利用MPM中的规则来调整LLM的输出概率分布,从而引导agent生成更合适的行动。HAC则根据预定义的规则来过滤掉不符合要求的行动。

📊 实验亮点

实验结果表明,MPR在AlfWorld环境中显著提高了Agent的执行准确性和鲁棒性。与Reflexion基线相比,MPR在多个任务上取得了持续的性能提升。Hard Rule Admissibility Checks (HAC) 的引入进一步提高了Agent的稳定性,减少了无效或不安全行动的发生。

🎯 应用场景

该研究成果可应用于各种需要智能Agent进行决策和行动的领域,例如游戏AI、机器人控制、自动化客服等。通过利用Meta-Policy Reflexion,Agent可以更有效地学习和适应新的环境,提高其在复杂任务中的表现,并降低开发和维护成本。未来的研究可以探索多模态和多Agent环境下的应用。

📄 摘要(原文)

Large language model (LLM) agents achieve impressive single-task performance but commonly exhibit repeated failures, inefficient exploration, and limited cross-task adaptability. Existing reflective strategies (e.g., Reflexion, ReAct) improve per-episode behavior but typically produce ephemeral, task-specific traces that are not reused across tasks. Reinforcement-learning based alternatives can produce transferable policies but require substantial parameter updates and compute. In this work we introduce Meta-Policy Reflexion (MPR): a hybrid framework that consolidates LLM-generated reflections into a structured, predicate-like Meta-Policy Memory (MPM) and applies that memory at inference time through two complementary mechanisms soft memory-guided decoding and hard rule admissibility checks(HAC). MPR (i) externalizes reusable corrective knowledge without model weight updates, (ii) enforces domain constraints to reduce unsafe or invalid actions, and (iii) retains the adaptability of language-based reflection. We formalize the MPM representation, present algorithms for update and decoding, and validate the approach in a text-based agent environment following the experimental protocol described in the provided implementation (AlfWorld-based). Empirical results reported in the supplied material indicate consistent gains in execution accuracy and robustness when compared to Reflexion baselines; rule admissibility further improves stability. We analyze mechanisms that explain these gains, discuss scalability and failure modes, and outline future directions for multimodal and multi-agent extensions.