Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains

作者: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

分类: cs.LG

发布日期: 2025-05-12

期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing

💡 一句话要点

提出缓存高效的后验采样框架，加速LLM先验强化学习在离散和连续域的应用

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 后验采样 缓存机制 元学习 离线强化学习 资源优化

📋 核心要点

现有方法将LLM作为先验知识融入强化学习，但计算成本高昂，限制了其在资源受限环境中的应用。
论文提出自适应缓存机制，通过策略性能的代理梯度进行元优化，从而减少LLM查询次数并降低延迟。
实验结果表明，该方法在离散和连续控制任务中均能显著降低计算成本，同时保持高性能，并可扩展到离线强化学习。

📝 摘要（中文）

本文提出了一种缓存高效的后验采样框架，用于在强化学习中利用大型语言模型（LLM）作为先验知识，旨在显著降低计算成本并保持高性能。该方法的核心是自适应缓存机制，其中缓存参数通过策略性能的代理梯度进行元优化。这种设计实现了在离散文本环境（如TextWorld、ALFWorld）和连续控制领域（如MuJoCo）中的高效推理，LLM查询次数减少了3.8到4.7倍，中值延迟降低了4.0到12.0倍（在消费级GPU上为85-93毫秒），同时保留了96-98%的未缓存性能。理论分析提供了近似质量的KL散度界限，并通过实验验证。该框架扩展到离线强化学习，CQL-Prior变体提高了14-29%的性能，并减少了38-40%的训练时间。在八个任务上的广泛评估证明了LLM引导的强化学习在资源受限环境中的通用性和实用性。

🔬 方法详解

问题定义：论文旨在解决将大型语言模型（LLM）作为先验知识融入强化学习时，计算成本过高的问题。现有方法直接使用LLM进行推理，导致大量的LLM查询，计算资源消耗巨大，推理延迟高，难以在资源受限的环境中应用。

核心思路：论文的核心思路是引入一个缓存机制，将LLM的输出结果缓存起来，避免重复查询LLM。同时，通过元学习优化缓存参数，使其能够自适应地选择哪些查询结果应该被缓存，从而在保证性能的同时，最大程度地减少LLM查询次数。

技术框架：整体框架包含以下几个主要模块：1) LLM先验：利用LLM生成策略或价值函数的先验信息。2) 缓存模块：存储LLM的输出结果，并根据一定的策略进行更新。3) 策略学习模块：利用强化学习算法，结合LLM先验和环境反馈，学习最优策略。4) 元优化模块：使用策略性能的代理梯度，优化缓存模块的参数，使其能够更好地适应环境变化。

关键创新：最重要的技术创新点是自适应缓存机制。该机制通过元学习优化缓存参数，使其能够根据策略性能动态地调整缓存策略。与传统的缓存方法相比，该方法能够更好地平衡性能和计算成本，从而在资源受限的环境中实现高效的LLM引导的强化学习。

关键设计：关键设计包括：1) 缓存替换策略：例如，可以使用LRU（Least Recently Used）或LFU（Least Frequently Used）等策略。2) 缓存参数化：例如，可以使用神经网络来预测哪些查询结果应该被缓存。3) 代理梯度：使用策略性能的代理梯度来优化缓存参数，例如可以使用REINFORCE算法或Actor-Critic算法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在离散文本环境（TextWorld、ALFWorld）和连续控制领域（MuJoCo）中，LLM查询次数减少了3.8-4.7倍，中值延迟降低了4.0-12.0倍（在消费级GPU上为85-93毫秒），同时保留了96-98%的未缓存性能。在离线强化学习中，CQL-Prior变体提高了14-29%的性能，并减少了38-40%的训练时间。

🎯 应用场景

该研究成果可广泛应用于需要利用LLM先验知识进行决策的强化学习任务中，例如机器人导航、游戏AI、对话系统等。尤其适用于资源受限的场景，如移动设备或嵌入式系统。通过降低计算成本和推理延迟，该方法有望推动LLM引导的强化学习在实际应用中的普及。

📄 摘要（原文）

Integrating large language models (LLMs) as priors in reinforcement learning (RL) offers significant advantages but comes with substantial computational costs. We present a principled cache-efficient framework for posterior sampling with LLM-derived priors that dramatically reduces these costs while maintaining high performance. At the core of our approach is an adaptive caching mechanism, where cache parameters are meta-optimized using surrogate gradients derived from policy performance. This design enables efficient inference across both discrete text environments (e.g., TextWorld, ALFWorld) and continuous control domains (e.g., MuJoCo), achieving a 3.8--4.7$\times$ reduction in LLM queries and 4.0--12.0$\times$ lower median latencies (85--93\,ms on a consumer GPU) while retaining 96--98\% of uncached performance. Our theoretical analysis provides KL divergence bounds on approximation quality, validated empirically. The framework extends to offline RL, where our CQL-Prior variant improves performance by 14--29\% and reduces training time by 38--40\%. Extensive evaluations across a diverse suite of eight tasks demonstrate the generalizability and practical viability of LLM-guided RL in resource-constrained settings.

Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理