Large Language Models are Biased Reinforcement Learners

📄 arXiv: 2405.11422v1 📥 PDF

作者: William M. Hayes, Nicolas Yax, Stefano Palminteri

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-05-19


💡 一句话要点

大型语言模型在强化学习中表现出相对价值偏差

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 认知偏差 相对价值 决策制定

📋 核心要点

  1. 大型语言模型在强化学习任务中展现潜力,但其决策过程的偏差需要深入研究。
  2. 该研究发现LLM在编码奖励时存在相对价值偏差,类似于人类的认知偏差。
  3. 实验表明,显式的结果比较提示对LLM的性能有双重影响,提升训练集性能但降低泛化能力。

📝 摘要(中文)

上下文学习使大型语言模型(LLM)能够执行各种任务,包括在简单的bandit任务中学习做出最大化奖励的选择。鉴于它们作为(自主)决策代理的潜在用途,重要的是了解这些模型如何执行此类强化学习(RL)任务,以及它们在多大程度上容易受到偏差的影响。受人类对结果的价值判断取决于其与其他局部结果的比较这一事实的启发,本研究侧重于类似的价值编码偏差是否适用于LLM对奖励结果的编码。多个bandit任务和模型实验的结果表明,LLM表现出相对价值偏差的行为特征。在提示中添加明确的结果比较对性能产生相反的影响,增强了训练选择集中的最大化,但削弱了对新选择集的泛化。计算认知建模表明,LLM的行为可以通过一个简单的RL算法很好地描述,该算法在结果编码阶段结合了相对价值。最后,我们提供了初步证据,表明观察到的偏差不限于微调的LLM,并且相对价值处理可以在原始的、预训练模型的最终隐藏层激活中检测到。这些发现对LLM在决策应用中的使用具有重要意义。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在强化学习任务中,特别是bandit任务中,是否存在类似人类的认知偏差,即相对价值偏差。现有方法主要关注LLM在绝对价值上的学习能力,忽略了其可能存在的认知偏差,这可能影响LLM作为决策代理的可靠性。

核心思路:论文的核心思路是借鉴人类认知科学的研究成果,考察LLM是否也受到相对价值偏差的影响。相对价值偏差指的是个体对某个结果的价值判断,不仅取决于其绝对大小,还取决于其与其他局部结果的比较。通过设计特定的bandit任务,并分析LLM的行为模式,来验证其是否存在这种偏差。

技术框架:论文采用实验研究的方法,设计了多个bandit任务,并使用不同的LLM模型进行实验。实验流程包括:1)设计bandit任务,定义奖励机制;2)使用不同的提示方式引导LLM进行决策,包括提供绝对奖励信息和相对奖励信息;3)分析LLM的决策行为,例如选择不同选项的概率;4)使用计算认知模型,拟合LLM的行为数据,验证相对价值偏差的存在;5)分析LLM的内部表示,例如最终隐藏层的激活,来寻找相对价值处理的证据。

关键创新:论文的关键创新在于将人类认知科学中的相对价值偏差概念引入到对LLM强化学习能力的分析中。以往的研究主要关注LLM在绝对价值上的学习能力,而忽略了其可能存在的认知偏差。该研究首次揭示了LLM在强化学习任务中存在相对价值偏差,并探讨了这种偏差对LLM决策行为的影响。

关键设计:论文的关键设计包括:1)bandit任务的设计,需要保证奖励的分布能够诱导出相对价值偏差;2)提示方式的设计,需要能够控制LLM获取的奖励信息,例如提供绝对奖励信息和相对奖励信息;3)计算认知模型的选择,需要能够捕捉到相对价值偏差的行为特征;4)LLM内部表示的分析方法,需要能够有效地提取出相对价值处理的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在bandit任务中表现出明显的相对价值偏差行为。当在提示中加入明确的结果比较时,LLM在训练集上的最大化性能得到增强,但在新选择集上的泛化能力却受到削弱。计算认知建模结果表明,LLM的行为可以用一个简单的RL算法很好地描述,该算法在结果编码阶段结合了相对价值。

🎯 应用场景

该研究成果可应用于提升LLM在决策制定方面的可靠性和公平性。通过理解和纠正LLM中的认知偏差,可以使其在金融投资、医疗诊断等关键领域的应用更加安全有效。此外,该研究也为开发更符合人类认知的AI系统提供了新的思路。

📄 摘要(原文)

In-context learning enables large language models (LLMs) to perform a variety of tasks, including learning to make reward-maximizing choices in simple bandit tasks. Given their potential use as (autonomous) decision-making agents, it is important to understand how these models perform such reinforcement learning (RL) tasks and the extent to which they are susceptible to biases. Motivated by the fact that, in humans, it has been widely documented that the value of an outcome depends on how it compares to other local outcomes, the present study focuses on whether similar value encoding biases apply to how LLMs encode rewarding outcomes. Results from experiments with multiple bandit tasks and models show that LLMs exhibit behavioral signatures of a relative value bias. Adding explicit outcome comparisons to the prompt produces opposing effects on performance, enhancing maximization in trained choice sets but impairing generalization to new choice sets. Computational cognitive modeling reveals that LLM behavior is well-described by a simple RL algorithm that incorporates relative values at the outcome encoding stage. Lastly, we present preliminary evidence that the observed biases are not limited to fine-tuned LLMs, and that relative value processing is detectable in the final hidden layer activations of a raw, pretrained model. These findings have important implications for the use of LLMs in decision-making applications.