SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

📄 arXiv: 2512.02807v1 📥 PDF

作者: Yixuan Tang, Yi Yang

分类: cs.CL

发布日期: 2025-12-02


💡 一句话要点

提出SR-GRPO,利用稳定秩作为内在奖励信号对LLM进行无监督对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型对齐 强化学习 无监督学习 内在奖励信号 稳定秩

📋 核心要点

  1. 现有LLM对齐方法依赖外部监督,存在标注成本高、主观性强、易受攻击等问题。
  2. 论文提出利用模型内部表示的稳定秩作为内在奖励信号,无需人工标注即可评估模型质量。
  3. SR-GRPO在STEM和数学推理任务上显著优于现有方法,验证了内在奖励信号的有效性。

📝 摘要(中文)

大型语言模型(LLM)与人类偏好对齐通常依赖于外部监督,但面临着关键限制:人工标注稀缺且主观,奖励模型容易受到奖励黑客攻击,自评估方法则对提示敏感且存在偏差。本文提出稳定秩,这是一种源自模型表示的内在、无标注质量信号。稳定秩通过计算总方差与主导方向方差的比率来衡量隐藏状态的有效维度,从而通过信息在表示维度上的分布来捕捉质量。实验表明,稳定秩在RewardBench上实现了84.04%的准确率,并通过Best-of-N抽样在贪婪解码的基础上平均提高了11.3个百分点的任务准确率。基于此,我们引入了稳定秩组相对策略优化(SR-GRPO),它使用稳定秩作为强化学习的奖励信号。在没有外部监督的情况下,SR-GRPO使Qwen2.5-1.5B-Instruct在STEM上提高了10%,在数学推理上提高了19%,优于学习到的奖励模型和自评估基线。我们的研究结果表明,可以从内部模型几何结构中提取质量信号,从而为无需外部监督的可扩展对齐提供了一条途径。

🔬 方法详解

问题定义:现有的大型语言模型对齐方法严重依赖于外部监督信号,例如人工标注数据或学习到的奖励模型。这些方法存在诸多问题,包括标注成本高昂、标注数据的主观性偏差、奖励模型容易受到对抗性攻击(reward hacking)以及自评估方法对提示词的敏感性。因此,如何实现无需外部监督的可扩展LLM对齐是一个重要的研究问题。

核心思路:本文的核心思路是利用模型内部的几何结构信息来评估模型输出的质量,并将其作为强化学习的奖励信号。具体而言,论文提出使用“稳定秩”(stable rank)来衡量模型隐藏状态的有效维度,并将其作为内在的质量指标。稳定秩越高,表示模型的信息分布越均匀,模型质量越高。这种方法无需人工标注,避免了外部监督带来的问题。

技术框架:SR-GRPO (Stable Rank Group Relative Policy Optimization) 的整体框架是一个标准的强化学习流程,但其奖励函数的设计是关键。该框架包括以下几个主要步骤: 1. 采样:使用当前策略从模型中生成多个候选输出。 2. 计算稳定秩:对于每个候选输出,计算其隐藏状态的稳定秩。 3. 奖励计算:基于稳定秩,计算每个候选输出的奖励。具体而言,SR-GRPO使用组相对策略优化(GRPO)的思想,将候选输出分成若干组,并计算每组内候选输出的相对奖励。 4. 策略更新:使用强化学习算法(例如PPO)更新模型策略,目标是最大化累积奖励。

关键创新:该论文最重要的创新点在于提出了使用稳定秩作为内在奖励信号的思想。与传统的外部监督方法相比,这种方法无需人工标注,可以更有效地利用模型自身的知识。此外,SR-GRPO结合了组相对策略优化,进一步提高了训练的稳定性和效率。

关键设计:稳定秩的计算是该方法的一个关键技术细节。具体而言,稳定秩被定义为隐藏状态表示的总方差与最大奇异值平方的比值。这个比值可以反映隐藏状态的有效维度,并作为模型质量的指标。此外,SR-GRPO使用KL散度正则化来约束策略更新,防止策略漂移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SR-GRPO在Qwen2.5-1.5B-Instruct模型上取得了显著的性能提升。在STEM任务上,SR-GRPO相比于基线方法提高了10%,在数学推理任务上提高了19%。此外,SR-GRPO的性能优于使用学习到的奖励模型和自评估方法的基线,验证了稳定秩作为内在奖励信号的有效性。

🎯 应用场景

SR-GRPO具有广泛的应用前景,可用于各种LLM的对齐任务,尤其是在缺乏高质量标注数据的场景下。该方法可以降低LLM对齐的成本,提高对齐的效率和鲁棒性。此外,该研究也为探索利用模型内部信息进行无监督学习提供了新的思路,未来可能应用于其他自然语言处理任务。

📄 摘要(原文)

Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.