Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

作者: Rosie Zhao, Alexandru Meterez, Sham Kakade, Cengiz Pehlevan, Samy Jelassi, Eran Malach

分类: cs.LG

发布日期: 2025-04-10 (更新: 2025-08-07)

备注: COLM 2025

💡 一句话要点

RL后训练放大预训练行为，揭示数学推理模型训练偏差与泛化特性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 语言模型 数学推理 预训练 模型泛化 后训练 PPO 数据偏差

📋 核心要点

现有研究缺乏对RL微调在提升语言模型数学推理能力背后的机制的深入理解，尤其是在数据组成、超参数和模型规模的交互影响方面。
该研究通过从头开始训练模型，并控制预训练数据的混合比例，系统地研究了RL微调对数学推理的影响，旨在揭示其内在机制。
实验表明，RL算法倾向于放大预训练数据中的模式，不同规模的模型会收敛到不同的输出分布，且在简单问题上的RL训练能提升在复杂问题上的表现。

📝 摘要（中文）

强化学习(RL)微调已成为后训练语言模型以进行高级数学推理和编码的关键步骤。在推理模型成功之后，最近的研究表明，即使在较小规模的模型中，RL微调也能持续提高性能；然而，驱动这些改进的潜在机制尚不清楚。理解RL微调的效果需要解开它与预训练数据组成、超参数和模型规模的相互作用，但由于许多现有模型中使用的训练数据缺乏透明度，这些问题更加严重。在这项工作中，我们通过完全从头开始在完全开放数据集的不同混合上训练模型，对数学推理的RL微调进行了系统的端到端研究。我们研究了各种RL微调算法（PPO、GRPO和Expert Iteration）在不同规模模型上的效果。我们的研究表明，RL算法始终收敛于一个占主导地位的输出分布，从而放大了预训练数据中的模式。我们还发现，在相同数据混合上训练的不同规模的模型将收敛到不同的输出分布，这表明模型泛化中存在规模依赖的偏差。此外，我们发现对更简单的问题进行RL后训练可以提高对更难问题的性能，这表明某些推理能力可以跨任务泛化。我们的发现表明，受控环境中的小规模代理可以引发关于RL在塑造语言模型行为中的作用的有趣见解。

🔬 方法详解

问题定义：现有方法在理解RL微调如何影响语言模型，特别是数学推理能力时，缺乏对预训练数据、超参数和模型规模之间复杂交互的系统性研究。许多现有模型训练数据不透明，使得分析变得困难。因此，需要一种可控的实验环境来解耦这些因素，从而深入理解RL微调的机制。

核心思路：该论文的核心思路是通过构建一个完全可控的实验环境，从头开始训练模型，并精确控制预训练数据的组成。通过比较不同规模的模型和不同的RL微调算法，研究人员可以观察RL微调如何影响模型的输出分布，并揭示模型泛化中的偏差。这种方法允许研究人员隔离和分析各个因素对模型行为的影响。

技术框架：该研究的技术框架包括以下几个主要步骤：1) 构建包含不同难度数学问题的开放数据集；2) 从头开始训练不同规模的语言模型；3) 使用不同的RL算法（PPO、GRPO、Expert Iteration）对模型进行微调；4) 分析模型在不同难度问题上的表现，并比较不同模型和算法之间的差异；5) 评估模型输出分布的变化，以确定RL微调如何放大预训练数据中的模式。

关键创新：该研究的关键创新在于其系统性和可控性。通过从头开始训练模型，并精确控制预训练数据的组成，研究人员能够避免现有研究中数据不透明的问题，并更清晰地观察RL微调的影响。此外，该研究还揭示了模型规模对泛化能力的影响，以及在简单问题上进行RL训练可以提升在复杂问题上表现的现象。

关键设计：该研究的关键设计包括：1) 使用完全开放的数据集，保证实验的可重复性；2) 训练不同规模的语言模型，以研究模型规模对泛化能力的影响；3) 使用多种RL算法进行微调，以比较不同算法的效果；4) 精心设计的实验方案，以隔离和分析各个因素对模型行为的影响。

🖼️ 关键图片

📊 实验亮点

研究发现，RL算法倾向于放大预训练数据中的模式，导致模型收敛于一个占主导地位的输出分布。不同规模的模型在相同数据上训练会收敛到不同的输出分布，表明模型泛化存在规模依赖的偏差。此外，在简单问题上的RL训练能提升在复杂问题上的表现，揭示了推理能力跨任务泛化的潜力。

🎯 应用场景

该研究的成果可应用于提升语言模型在数学推理、代码生成等领域的性能。通过理解RL微调的机制，可以更好地设计训练策略，提高模型的泛化能力和鲁棒性。此外，该研究也为开发更高效、更可控的AI系统提供了新的思路。

📄 摘要（原文）

Reinforcement learning (RL)-based fine-tuning has become a crucial step in post-training language models for advanced mathematical reasoning and coding. Following the success of frontier reasoning models, recent work has demonstrated that RL fine-tuning consistently improves performance, even in smaller-scale models; however, the underlying mechanisms driving these improvements are not well-understood. Understanding the effects of RL fine-tuning requires disentangling its interaction with pretraining data composition, hyperparameters, and model scale, but such problems are exacerbated by the lack of transparency regarding the training data used in many existing models. In this work, we present a systematic end-to-end study of RL fine-tuning for mathematical reasoning by training models entirely from scratch on different mixtures of fully open datasets. We investigate the effects of various RL fine-tuning algorithms (PPO, GRPO, and Expert Iteration) across models of different scales. Our study reveals that RL algorithms consistently converge towards a dominant output distribution, amplifying patterns in the pretraining data. We also find that models of different scales trained on the same data mixture will converge to distinct output distributions, suggesting that there are scale-dependent biases in model generalization. Moreover, we find that RL post-training on simpler questions can lead to performance gains on harder ones, indicating that certain reasoning capabilities generalize across tasks. Our findings show that small-scale proxies in controlled settings can elicit interesting insights regarding the role of RL in shaping language model behavior.

Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理