LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training
作者: Minju Gwak, Minseo Kwak, Dongseok Lee, Guijin Son, Alan Ritter, Jaehyung Kim
分类: cs.LG, cs.AI
发布日期: 2026-05-28
备注: Work in Progress
💡 一句话要点
提出LaRA框架,通过层级表征分析检测RL后训练中LLM的数据污染问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 数据污染检测 大型语言模型 层级表征分析 扰动敏感性 方向坍塌 局部刚性
📋 核心要点
- 现有数据污染检测方法依赖输出层信号,对RL训练模型失效,因为RL通过轨迹奖励而非token似然性塑造行为。
- LaRA框架通过分析LLM各层表征,利用扰动敏感性、方向坍塌和局部刚性三个指标检测数据污染。
- 实验表明,LaRA能有效检测RL后训练LLM中的数据污染,优于基于输出层面的现有方法。
📝 摘要(中文)
强化学习(RL)后训练已被证明可以提升大型语言模型(LLM)的推理能力。然而,对于RL后训练中的数据污染问题,目前的研究还很少,这可能会损害训练过程本身的泛化能力和评估可靠性。现有的检测方法主要依赖于输出层面的信号,如似然性或熵,但对于RL训练的模型来说,这些方法变得不可靠,因为RL通过轨迹层面的奖励来塑造行为,而不是token的似然性。我们提出了LaRA,一个用于检测RL后训练LLM中数据污染的层级表征分析框架。LaRA引入了三个互补的指标,用于测量受控扰动下的扰动敏感性、方向坍塌和局部表征刚性。我们发现,污染会在各层之间产生渐进的几何偏差,包括放大的扰动敏感性、更强的方向坍塌和增强的局部刚性。基于我们的发现,我们还开发了一种污染检测协议,该协议聚合了各层和指标的表征层面偏差。在RL训练的推理模型上的实验表明,我们的协议在污染检测方面优于现有的输出层面基线。
🔬 方法详解
问题定义:论文旨在解决强化学习(RL)后训练的大型语言模型(LLM)中数据污染的检测问题。现有方法主要依赖于输出层面的信号(如似然性或熵)来检测数据污染,但这些方法在RL训练的模型中表现不佳,因为RL通过轨迹层面的奖励来塑造行为,而非token的似然性。因此,需要一种新的方法来有效检测RL后训练LLM中的数据污染。
核心思路:论文的核心思路是通过分析LLM的层级表征来检测数据污染。作者认为,数据污染会在LLM的各层之间产生渐进的几何偏差,包括扰动敏感性的放大、方向坍塌的增强和局部刚性的增强。通过测量这些偏差,可以有效地检测数据污染。这种思路的关键在于关注模型内部的表征变化,而非仅仅依赖输出结果。
技术框架:LaRA框架包含以下几个主要步骤:1) 对LLM的输入进行受控扰动;2) 提取LLM各层的表征;3) 计算三个指标:扰动敏感性、方向坍塌和局部刚性;4) 聚合各层和指标的偏差,以检测数据污染。框架的核心在于这三个指标的设计和计算,它们能够捕捉到数据污染在模型表征层面产生的独特影响。
关键创新:LaRA的关键创新在于提出了层级表征分析的方法来检测RL后训练LLM中的数据污染。与现有方法不同,LaRA不依赖于输出层面的信号,而是直接分析模型内部的表征变化。此外,LaRA还提出了三个新的指标:扰动敏感性、方向坍塌和局部刚性,这些指标能够有效地捕捉到数据污染在模型表征层面产生的独特影响。
关键设计:LaRA的关键设计包括:1) 使用受控扰动来激发模型表征的变化;2) 精心设计的三个指标,用于量化表征的几何偏差;3) 一种聚合各层和指标偏差的污染检测协议。具体来说,扰动敏感性通过测量扰动前后表征的差异来评估;方向坍塌通过测量表征在不同方向上的坍塌程度来评估;局部刚性通过测量表征在局部区域内的变化程度来评估。这些指标的具体计算公式在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LaRA在检测RL训练的推理模型中的数据污染方面,显著优于现有的基于输出层面的基线方法。LaRA能够更准确地识别被污染的数据,从而提高模型的可靠性和安全性。具体的性能提升数据在论文中进行了详细的量化分析。
🎯 应用场景
LaRA可应用于评估和改进RL后训练的LLM的可靠性,尤其是在需要高安全性和可信度的应用场景中,如医疗诊断、金融风控等。通过检测和消除数据污染,可以提高模型的泛化能力和鲁棒性,从而避免因数据偏差导致的错误决策,提升AI系统的整体性能。
📄 摘要(原文)
Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little exploration on the problem of data contamination in RL post-training, potentially undermining generalization and evaluation reliability of the training process itself. Existing detection methods primarily rely on output-level signals such as likelihood or entropy, which become unreliable for RL-trained models since RL shapes behavior through trajectory-level rewards rather than token likelihoods. We propose LaRA, a layer-wise representation analysis framework for detecting contamination in RL post-trained LLMs. LaRA introduces three complementary metrics, measuring perturbation sensitivity, directional collapse, and local representation rigidity under controlled perturbations. We find that contamination produces progressive geometric deviations across layers, including amplified perturbation sensitivity, stronger directional collapse, and enhanced local rigidity. Based on our findings, we also develop a contamination detection protocol that aggregates representation-level deviations across layers and metrics. Experiments on RL-trained reasoning models show that our protocol outperforms existing output-level baselines for contamination detection.