Memory-Driven Self-Improvement for Decision Making with Large Language Models

作者: Xue Yan, Zijing Ou, Mengyue Yang, Yan Song, Haifeng Zhang, Yingzhen Li, Jun Wang

分类: cs.LG

发布日期: 2025-09-30

💡 一句话要点

提出基于记忆驱动的自提升框架，提升LLM在序贯决策任务中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 序贯决策 强化学习 记忆增强 自提升学习

📋 核心要点

现有LLM在序贯决策任务中面临挑战，通用知识不足以适应特定任务，尤其是在数据有限的情况下。
论文提出记忆驱动的自提升框架，结合LLM先验知识与领域经验记忆，互相促进，提升决策能力。
实验结果表明，该方法显著优于传统强化学习和基于LLM的基线，在性能上有显著提升。

📝 摘要（中文）

大型语言模型(LLMs)凭借其广泛的先验知识，已成为序贯决策(SDM)任务中有效的动作策略。然而，这种广泛而通用的知识通常不足以应对特定决策任务，尤其是在任务相关数据有限的情况下，这使得LLMs难以有效地适应特定SDM任务。为了解决这个问题，我们提出了一种记忆驱动的自提升框架，该框架将LLM的通用先验知识与领域特定经验的紧凑记忆相结合。记忆保留了过去的交互和相关的Q值，从而捕获了与决策相关的知识，这有助于准确的价值估计，并为LLM先验的改进提供信息。反过来，改进后的LLM先验会生成更高奖励的轨迹，从而进一步丰富记忆，形成一个自然的自提升框架，其中记忆和LLM先验相互加强。实验表明，我们的记忆驱动方法明显优于传统的强化学习和基于LLM的基线方法，例如，在同分布任务上的性能提高了40%以上，在推广到ALFWorld中未见任务时，性能提高了75%以上。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在序贯决策（SDM）任务中，由于缺乏特定领域知识和数据，难以有效适应特定任务的问题。现有方法，如直接使用LLM或传统强化学习方法，在数据稀缺或任务复杂时表现不佳。LLM的通用知识不足以指导特定任务的决策，而传统强化学习方法则需要大量的样本进行训练。

核心思路：论文的核心思路是将LLM的通用先验知识与一个紧凑的领域特定经验记忆相结合，形成一个自提升的框架。通过记忆模块存储过去的交互经验和相应的Q值，为LLM提供更准确的价值估计信息，从而指导LLM策略的改进。改进后的LLM策略又可以生成更高奖励的轨迹，进一步丰富记忆，形成正反馈循环。

技术框架：该框架包含两个主要组成部分：LLM策略和记忆模块。LLM策略负责生成动作，记忆模块负责存储过去的交互经验（状态、动作、奖励、下一个状态）以及相应的Q值。整体流程如下：1) LLM策略根据当前状态生成动作；2) 执行动作并获得奖励，更新记忆模块；3) 使用记忆模块中的经验来改进LLM策略，例如通过微调或提示工程；4) 重复上述步骤，直到LLM策略收敛或达到预定的训练目标。

关键创新：该方法最重要的创新点在于将LLM的通用知识与领域特定经验记忆相结合，并通过自提升的方式不断改进LLM策略。与传统的强化学习方法相比，该方法能够更有效地利用LLM的先验知识，减少对大量样本的依赖。与直接使用LLM的方法相比，该方法能够更好地适应特定任务，提高决策的准确性。

关键设计：记忆模块使用Q值来评估过去经验的价值，并优先选择高价值的经验来改进LLM策略。具体来说，可以使用Q-learning或SARSA等算法来估计Q值。LLM策略的改进可以通过多种方式实现，例如微调LLM、使用提示工程来引导LLM生成更好的动作。论文可能还涉及一些超参数的设置，例如记忆模块的大小、学习率、探索率等。具体的损失函数取决于LLM策略改进的方式，例如可以使用交叉熵损失函数来微调LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在ALFWorld等序贯决策任务中取得了显著的性能提升。例如，在同分布任务上，该方法比基线方法提高了40%以上；在推广到未见任务时，性能提高了75%以上。这些结果表明，该方法能够有效地利用LLM的先验知识和领域特定经验，提高决策的准确性和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要序贯决策的场景，例如游戏AI、机器人控制、自动驾驶、推荐系统等。通过结合LLM的通用知识和领域特定经验，可以更有效地解决复杂决策问题，提高系统的智能化水平。该方法有望降低对大量训练数据的依赖，加速AI技术在各个领域的应用。

📄 摘要（原文）

Large language models (LLMs) have emerged as effective action policies for sequential decision-making (SDM) tasks due to their extensive prior knowledge. However, this broad yet general knowledge is often insufficient for specific decision-making tasks with limited task-related data, making it challenging to efficiently adapt LLMs to specific SDM tasks. To address this challenge, we propose a memory-driven self-improvement framework that combines LLM general prior knowledge with a compact memory of domain-specific experiences. Memory retains past interactions and associated Q-values, thereby capturing decision-relevant knowledge that facilitates accurate value estimation and informs the LLM prior refinement. The refined LLM prior, in turn, generates higher-reward trajectories that further enrich memory, forming a natural self-improvement framework where memory and LLM prior mutually reinforce each other. Experiments show that our memory-driven approach significantly outperforms both traditional RL and LLM-based baselines, e.g., improving performance by over 40\% on in-distribution tasks and over 75\% when generalized to unseen tasks in ALFWorld.

Memory-Driven Self-Improvement for Decision Making with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理