PARL: Prompt-based Agents for Reinforcement Learning

📄 arXiv: 2510.21306 📥 PDF

作者: Yarik Menchaca Resendiz, Roman Klinger

分类: cs.CL

发布日期: 2026-02-28


💡 一句话要点

PARL:提出一种基于提示的大语言模型强化学习智能体,无需微调。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 提示学习 零样本学习 智能体 非语言推理 网格世界

📋 核心要点

  1. 现有强化学习智能体在处理非语言结构化推理任务时存在局限性,尤其是在利用预训练知识方面。
  2. PARL通过提示将大语言模型作为强化学习智能体,无需微调,实现试错学习,从而解决上述问题。
  3. 实验表明,PARL在简单环境中可以匹配或优于传统强化学习智能体,但在复杂任务中存在性能瓶颈。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言表达的任务上表现出高性能,尤其是在零样本或少样本设置中。这些任务通常被构建为监督学习(例如,分类)或无监督学习(例如,聚类)问题。然而,评估LLMs作为强化学习(RL)任务(例如,玩游戏)中的智能体的工作有限,在这些任务中,学习是通过与环境和奖励系统的交互发生的。虽然之前的工作侧重于表示依赖于语言表示的任务,但我们研究了结构化的、非语言的推理——例如解释网格世界中的位置。因此,我们引入了PARL(Prompt-based Agent for Reinforcement Learning),这是一种通过提示使用LLMs作为RL智能体的方法,无需任何微调。PARL将动作、状态和奖励编码到提示中,使模型能够通过试错交互进行学习。我们在三个不完全依赖自然语言的标准RL任务上评估PARL。我们表明,通过利用预训练的知识,它可以匹配或优于简单环境中的传统RL智能体。然而,我们发现需要复杂数学运算或解码状态和动作的任务存在性能限制。

🔬 方法详解

问题定义:论文旨在探索大型语言模型(LLMs)在强化学习(RL)任务中作为智能体的潜力,特别是针对那些不完全依赖自然语言的任务,例如网格世界中的导航。现有方法通常需要针对特定任务进行微调,或者难以处理非语言的结构化推理问题。

核心思路:论文的核心思路是利用LLMs的预训练知识,通过提示(prompting)的方式引导LLMs进行强化学习,而无需进行任何微调。通过将状态、动作和奖励信息编码到提示中,LLMs可以根据环境反馈进行学习和决策。

技术框架:PARL的技术框架主要包括以下几个步骤:1. 将当前环境状态编码为提示的一部分。2. LLM根据提示生成可能的动作。3. 选择一个动作并执行。4. 观察环境反馈(新的状态和奖励)。5. 将新的状态和奖励添加到提示中,用于下一步的决策。这个过程不断循环,直到达到终止条件。

关键创新:PARL的关键创新在于它能够利用LLMs的预训练知识,通过提示的方式进行强化学习,而无需进行任何微调。这使得LLMs能够快速适应新的环境和任务,并且能够处理非语言的结构化推理问题。与传统的强化学习方法相比,PARL不需要从头开始学习,而是可以利用LLMs已经掌握的知识。

关键设计:PARL的关键设计包括提示的格式和动作的选择策略。提示的格式需要能够清晰地表达当前的状态、历史动作和奖励信息。动作的选择策略可以采用贪婪策略、ε-贪婪策略或者其他探索策略。论文中没有明确说明具体的参数设置、损失函数或网络结构,因为PARL并没有对LLM进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PARL在简单网格世界环境中表现出与传统强化学习智能体相当甚至更优的性能,证明了其利用预训练知识进行强化学习的潜力。然而,在需要复杂数学运算或解码状态和动作的任务中,PARL的性能受到限制,表明其在处理复杂推理任务方面仍有提升空间。

🎯 应用场景

PARL的潜在应用领域包括机器人导航、游戏AI、自动化决策等。它可以应用于那些需要智能体与环境进行交互,并且需要利用预训练知识的任务。PARL的实际价值在于它可以降低强化学习的训练成本,并且可以提高智能体的泛化能力。未来,PARL可以与其他强化学习方法相结合,以进一步提高智能体的性能。

📄 摘要(原文)

Large language models (LLMs) have demonstrated high performance on tasks expressed in natural language, particularly in zero- or few-shot settings. These are typically framed as supervised (e.g., classification) or unsupervised (e.g., clustering) problems. However, limited work evaluates LLMs as agents in reinforcement learning (RL) tasks (e.g., playing games), where learning occurs through interaction with an environment and a reward system. While prior work focused on representing tasks that rely on a language representation, we study structured, non-linguistic reasoning - such as interpreting positions in a grid world. We therefore introduce PARL (Prompt-based Agent for Reinforcement Learning), a method that uses LLMs as RL agents through prompting, without any fine-tuning. PARL encodes actions, states, and rewards in the prompt, enabling the model to learn through trial-and-error interaction. We evaluate PARL on three standard RL tasks that do not entirely rely on natural language. We show that it can match or outperform traditional RL agents in simple environments by leveraging pretrained knowledge. However, we identify performance limitations in tasks that require complex mathematical operations or decoding states and actions.