Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains

📄 arXiv: 2505.07274v1 📥 PDF

作者: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

分类: cs.LG

发布日期: 2025-05-12

期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing


💡 一句话要点

提出缓存高效的后验采样框架,加速LLM先验强化学习在离散和连续域的应用

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 后验采样 缓存机制 元学习 离线强化学习 资源优化

📋 核心要点

  1. 现有方法将LLM作为先验知识融入强化学习,但计算成本高昂,限制了其在资源受限环境中的应用。
  2. 论文提出自适应缓存机制,通过策略性能的代理梯度进行元优化,从而减少LLM查询次数并降低延迟。
  3. 实验结果表明,该方法在离散和连续控制任务中均能显著降低计算成本,同时保持高性能,并可扩展到离线强化学习。

📝 摘要(中文)

本文提出了一种缓存高效的后验采样框架,用于在强化学习中利用大型语言模型(LLM)作为先验知识,旨在显著降低计算成本并保持高性能。该方法的核心是自适应缓存机制,其中缓存参数通过策略性能的代理梯度进行元优化。这种设计实现了在离散文本环境(如TextWorld、ALFWorld)和连续控制领域(如MuJoCo)中的高效推理,LLM查询次数减少了3.8到4.7倍,中值延迟降低了4.0到12.0倍(在消费级GPU上为85-93毫秒),同时保留了96-98%的未缓存性能。理论分析提供了近似质量的KL散度界限,并通过实验验证。该框架扩展到离线强化学习,CQL-Prior变体提高了14-29%的性能,并减少了38-40%的训练时间。在八个任务上的广泛评估证明了LLM引导的强化学习在资源受限环境中的通用性和实用性。

🔬 方法详解

问题定义:论文旨在解决将大型语言模型(LLM)作为先验知识融入强化学习时,计算成本过高的问题。现有方法直接使用LLM进行推理,导致大量的LLM查询,计算资源消耗巨大,推理延迟高,难以在资源受限的环境中应用。

核心思路:论文的核心思路是引入一个缓存机制,将LLM的输出结果缓存起来,避免重复查询LLM。同时,通过元学习优化缓存参数,使其能够自适应地选择哪些查询结果应该被缓存,从而在保证性能的同时,最大程度地减少LLM查询次数。

技术框架:整体框架包含以下几个主要模块:1) LLM先验:利用LLM生成策略或价值函数的先验信息。2) 缓存模块:存储LLM的输出结果,并根据一定的策略进行更新。3) 策略学习模块:利用强化学习算法,结合LLM先验和环境反馈,学习最优策略。4) 元优化模块:使用策略性能的代理梯度,优化缓存模块的参数,使其能够更好地适应环境变化。

关键创新:最重要的技术创新点是自适应缓存机制。该机制通过元学习优化缓存参数,使其能够根据策略性能动态地调整缓存策略。与传统的缓存方法相比,该方法能够更好地平衡性能和计算成本,从而在资源受限的环境中实现高效的LLM引导的强化学习。

关键设计:关键设计包括:1) 缓存替换策略:例如,可以使用LRU(Least Recently Used)或LFU(Least Frequently Used)等策略。2) 缓存参数化:例如,可以使用神经网络来预测哪些查询结果应该被缓存。3) 代理梯度:使用策略性能的代理梯度来优化缓存参数,例如可以使用REINFORCE算法或Actor-Critic算法。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在离散文本环境(TextWorld、ALFWorld)和连续控制领域(MuJoCo)中,LLM查询次数减少了3.8-4.7倍,中值延迟降低了4.0-12.0倍(在消费级GPU上为85-93毫秒),同时保留了96-98%的未缓存性能。在离线强化学习中,CQL-Prior变体提高了14-29%的性能,并减少了38-40%的训练时间。

🎯 应用场景

该研究成果可广泛应用于需要利用LLM先验知识进行决策的强化学习任务中,例如机器人导航、游戏AI、对话系统等。尤其适用于资源受限的场景,如移动设备或嵌入式系统。通过降低计算成本和推理延迟,该方法有望推动LLM引导的强化学习在实际应用中的普及。

📄 摘要(原文)

Integrating large language models (LLMs) as priors in reinforcement learning (RL) offers significant advantages but comes with substantial computational costs. We present a principled cache-efficient framework for posterior sampling with LLM-derived priors that dramatically reduces these costs while maintaining high performance. At the core of our approach is an adaptive caching mechanism, where cache parameters are meta-optimized using surrogate gradients derived from policy performance. This design enables efficient inference across both discrete text environments (e.g., TextWorld, ALFWorld) and continuous control domains (e.g., MuJoCo), achieving a 3.8--4.7$\times$ reduction in LLM queries and 4.0--12.0$\times$ lower median latencies (85--93\,ms on a consumer GPU) while retaining 96--98\% of uncached performance. Our theoretical analysis provides KL divergence bounds on approximation quality, validated empirically. The framework extends to offline RL, where our CQL-Prior variant improves performance by 14--29\% and reduces training time by 38--40\%. Extensive evaluations across a diverse suite of eight tasks demonstrate the generalizability and practical viability of LLM-guided RL in resource-constrained settings.