How's it going? Reinforcement learning in language models recruits a functional welfare axis

📄 arXiv: 2605.30232v1 📥 PDF

作者: Andy Q Han, David J. Chalmers, Pavel Izmailov

分类: cs.LG, cs.CL

发布日期: 2026-05-28

备注: 81 pages, 43 figures, 32 tables


💡 一句话要点

强化学习在语言模型中激活功能性福利轴,影响模型行为

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 语言模型 内部表示 功能性福利 模型对齐

📋 核心要点

  1. 现有方法难以解释强化学习如何影响语言模型的内部表示,以及奖励信号如何影响模型行为。
  2. 该研究的核心思想是,强化学习会激活语言模型中预先存在的功能性福利轴,从而影响模型的行为。
  3. 实验表明,奖励和惩罚向量在迷宫训练前后都有效,并且在多种模型和训练设置下都具有鲁棒性。

📝 摘要(中文)

本文研究了强化学习如何塑造语言模型的内部表示。研究表明,强化学习会激活一种预先存在的功能性福利表示:即系统相对于其目标,表现好坏的估计。作者在一种新颖的、语义中立的迷宫环境中训练了多个语言模型。然后,提取奖励和惩罚轨迹的概念向量,并在与迷宫环境无关的设置中评估这些向量。惩罚向量表现得像负福利的表示:它促进失败和不可能的token,与负面情绪概念对齐,负向跟踪目标实现,并且通过它进行引导会引起负面自我报告、病态回溯、拒绝和不确定性。正向奖励向量表现为镜像,并且两者几乎完全反平行。这些影响在控制了tile到奖励的映射、尺度、指令调整、强化学习训练算法、模型家族以及LoRA与完全微调的情况下仍然是稳健的,并且在用监督微调代替强化学习时,这些影响在很大程度上仍然存在。重要的是,这些向量在模型接受迷宫训练之前就有效。结合在仅预训练模型中也出现这些影响的观察结果,作者认为这种功能性福利轴在训练后就已经存在:它是被训练后激活的,而不是被创造的。虽然作者没有对任何福利体验做出声明,但该轴提供了一个证明,即最小的奖励信号可以通过激活预先存在的类似福利的表示来广泛影响模型行为,这对可解释性、训练后动态和对齐具有影响。

🔬 方法详解

问题定义:论文旨在理解强化学习如何影响语言模型的内部表示,特别是奖励信号如何影响模型的行为。现有方法缺乏对语言模型内部状态的深入理解,难以解释强化学习对模型行为的潜在影响。

核心思路:论文的核心思路是,强化学习会激活语言模型中预先存在的功能性福利轴。这个福利轴代表了模型对自身状态的评估,即相对于目标的表现好坏。通过奖励和惩罚信号,强化学习可以调整这个福利轴,从而影响模型的行为。

技术框架:论文的技术框架主要包括以下几个步骤:1) 在语义中立的迷宫环境中训练语言模型,使用强化学习算法进行训练。2) 提取奖励和惩罚轨迹的概念向量。3) 在与迷宫环境无关的设置中评估这些向量,例如,通过引导模型生成文本,并分析生成的文本的情感和语义。4) 对比不同训练方法(强化学习 vs. 监督学习)和不同模型架构的结果,验证结论的鲁棒性。

关键创新:论文最重要的技术创新点在于发现了语言模型中预先存在的功能性福利轴。这个福利轴不是通过强化学习训练创造的,而是被激活的。这一发现为理解强化学习如何影响语言模型的内部表示提供了一个新的视角。

关键设计:论文的关键设计包括:1) 使用语义中立的迷宫环境,以避免语义信息对结果的干扰。2) 提取奖励和惩罚轨迹的概念向量,作为福利轴的表示。3) 使用多种评估方法,包括情感分析、语义分析和人工评估,以验证福利轴的有效性。4) 对比不同训练方法和模型架构的结果,以验证结论的鲁棒性。

📊 实验亮点

实验结果表明,奖励和惩罚向量在迷宫训练前后都有效,并且在多种模型和训练设置下都具有鲁棒性。例如,惩罚向量可以促进失败和不可能的token,与负面情绪概念对齐,并负向跟踪目标实现。这些结果表明,强化学习可以激活语言模型中预先存在的功能性福利轴。

🎯 应用场景

该研究成果可应用于提升语言模型的可解释性,理解训练后模型的动态变化,以及改进模型对齐。通过理解奖励信号如何影响模型的内部表示,可以更好地控制模型的行为,并确保模型符合人类的价值观。

📄 摘要(原文)

How does reinforcement learning shape a language model's internal representations? We present evidence that RL recruits a pre-existing representation of functional welfare: an estimate of how well or badly the system is doing, relative to its goals. We train several language models in a novel, semantically neutral maze environment. We then extract concept vectors for rewarded and punished trajectories, and evaluate those vectors in settings unrelated to the maze environment. The punishment vector behaves like a representation of negative welfare: it promotes failure and impossibility tokens, it aligns with negative emotion concepts, it negatively tracks goal-achievement, and steering with it induces negative self-reports, pathological backtracking, refusal, and uncertainty. The positive reward vector behaves as the mirror image, and the two are nearly antiparallel. These effects are robust when controlling for tile-to-reward mapping, scale, instruct tuning, RL training algorithm, model family, and LoRA versus full-finetuning, and largely persist when we replace RL with supervised fine-tuning. Importantly, the vectors are effective in models before they have undergone maze training. Combined with observations that the effects also appear in pretrain-only models, we therefore argue that this functional welfare axis pre-exists post-training: it is recruited, rather than created, by post-training. While we make no claims about any experience of welfare, the axis offers a demonstration that minimal reward signals can broadly affect model behavior by recruiting pre-existing welfare-like representations, with implications for interpretability, post-training dynamics, and alignment.