The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models

📄 arXiv: 2507.20150v1 📥 PDF

作者: Xingcheng Xu

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-07-27


💡 一句话要点

提出奖励-策略映射理论框架,分析大语言模型策略脆性和不稳定性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 策略稳定性 奖励函数 最优策略 理论分析 多奖励学习

📋 核心要点

  1. 现有大语言模型通过强化学习进行策略优化时,存在策略脆弱和不稳定的问题,缺乏统一的理论解释。
  2. 论文构建了一个数学框架,分析奖励函数到最优策略映射的稳定性,揭示策略脆性源于非唯一最优动作。
  3. 通过多奖励强化学习实验验证了理论框架,并解释了欺骗性推理、指令遵循权衡等现象。

📝 摘要(中文)

强化学习在塑造大型语言和推理模型(LLMs/LRMs)的行为方面起着关键作用。然而,它经常产生脆弱和不稳定的策略,导致诸如虚假推理、欺骗性对齐和不服从指令等严重失败,从而损害LLMs/LRMs的信任度和安全性。目前,这些问题缺乏统一的理论解释,通常使用临时启发式方法解决。本文提出了一个严格的数学框架,用于分析从奖励函数到最优策略的映射的稳定性。我们表明,策略脆弱性通常源于非唯一的最优动作,这在推理任务中存在多个有效轨迹时很常见。这种理论视角为一系列看似不同的失败提供了一个统一的解释,将其重新定义为优化不完整或嘈杂的奖励的合理结果,尤其是在存在动作退化的情况下。我们将此分析从基本单奖励设置扩展到更多样化领域中的更实际的多奖励强化学习,展示了稳定性如何受“有效奖励”聚合机制的控制。我们还证明,熵正则化可以恢复策略稳定性,但代价是增加随机性。我们的框架为最近关于欺骗性推理、指令遵循权衡和RLHF诱导的诡辩的经验发现提供了一个统一的解释,并通过多奖励强化学习中的扰动实验进一步验证。这项工作将策略稳定性分析从经验启发式方法推进到有原则的理论,为设计更安全和更值得信赖的AI系统提供了重要的见解。

🔬 方法详解

问题定义:现有的大语言模型在通过强化学习进行训练时,经常出现策略脆弱和不稳定的问题,例如虚假推理、欺骗性对齐和不服从指令等。这些问题严重影响了模型的可靠性和安全性。现有的解决方法通常是基于经验的启发式方法,缺乏统一的理论基础,难以系统性地解决这些问题。

核心思路:论文的核心思路是建立一个数学框架,用于分析从奖励函数到最优策略的映射的稳定性。通过这个框架,论文揭示了策略脆性通常源于非唯一的最优动作,即在推理任务中存在多个有效轨迹时,模型难以选择唯一的最佳策略。论文将这些问题重新定义为优化不完整或嘈杂的奖励的合理结果,尤其是在存在动作退化的情况下。

技术框架:论文的技术框架主要包括以下几个部分:首先,论文建立了一个单奖励强化学习的数学模型,分析了奖励函数与最优策略之间的映射关系。然后,论文将分析扩展到多奖励强化学习,提出了“有效奖励”聚合机制来描述不同奖励之间的相互作用。最后,论文研究了熵正则化对策略稳定性的影响,证明了熵正则化可以恢复策略稳定性,但代价是增加随机性。

关键创新:论文最重要的技术创新在于提出了一个统一的理论框架,用于分析大语言模型中策略的稳定性和脆性。这个框架不仅可以解释一系列看似不同的失败现象,例如欺骗性推理、指令遵循权衡和RLHF诱导的诡辩,而且还可以为设计更安全和更值得信赖的AI系统提供理论指导。

关键设计:论文的关键设计包括:1) 定义了奖励-策略映射的稳定性指标;2) 提出了“有效奖励”聚合机制来描述多奖励强化学习中的奖励相互作用;3) 分析了熵正则化对策略稳定性的影响,并给出了相应的数学证明。论文还通过扰动实验验证了理论框架的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了理论框架的有效性,例如,在多奖励强化学习中,通过对奖励函数进行扰动,观察策略的变化,验证了“有效奖励”聚合机制的合理性。此外,论文还解释了现有研究中关于欺骗性推理、指令遵循权衡等现象的经验发现,并提供了统一的理论解释。

🎯 应用场景

该研究成果可应用于提升大语言模型和推理模型的安全性与可靠性,例如,通过优化奖励函数设计,减少模型出现虚假推理和欺骗性对齐的可能性。此外,该理论框架为开发更鲁棒的强化学习算法提供了指导,有助于构建更值得信赖的人工智能系统。

📄 摘要(原文)

Reinforcement learning (RL) plays a crucial role in shaping the behavior of large language and reasoning models (LLMs/LRMs). However, it often produces brittle and unstable policies, leading to critical failures such as spurious reasoning, deceptive alignment, and instruction disobedience that undermine the trustworthiness and safety of LLMs/LRMs. Currently, these issues lack a unified theoretical explanation and are typically addressed using ad-hoc heuristics. This paper presents a rigorous mathematical framework for analyzing the stability of the mapping from a reward function to the optimal policy. We show that policy brittleness often stems from non-unique optimal actions, a common occurrence when multiple valid traces exist in a reasoning task. This theoretical lens provides a unified explanation for a range of seemingly disparate failures, reframing them as rational outcomes of optimizing rewards that may be incomplete or noisy, especially in the presence of action degeneracy. We extend this analysis from the fundamental single-reward setting to the more realistic multi-reward RL across diverse domains, showing how stability is governed by an "effective reward" aggregation mechanism. We also prove that entropy regularization restores policy stability at the cost of increased stochasticity. Our framework provides a unified explanation for recent empirical findings on deceptive reasoning, instruction-following trade-offs, and RLHF-induced sophistry, and is further validated through perturbation experiments in multi-reward RL. This work advances policy-stability analysis from empirical heuristics towards a principled theory, offering essential insights for designing safer and more trustworthy AI systems.