Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

作者: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano

分类: cs.CL

发布日期: 2026-02-11

💡 一句话要点

长CoT监督微调中，数据重复优于数据扩增

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督微调 链式思考 数据重复 大型语言模型 推理能力

📋 核心要点

现有方法依赖大规模数据集进行监督微调，成本高昂且效果提升不明显。
论文提出重复训练策略，即在小数据集上进行多轮训练，以提高模型性能。
实验表明，重复训练在推理任务上显著优于单轮大数据集训练，且无灾难性遗忘。

📝 摘要（中文）

在链式思考（CoT）数据上进行监督微调（SFT）是推理语言模型的重要训练后步骤。标准的机器学习直觉表明，使用更多独特的训练样本进行训练会产生更好的泛化效果。但与直觉相反，本文表明SFT受益于数据重复：在固定的更新预算下，在较小的数据集上训练更多epoch优于在较大的数据集上进行单epoch训练。在AIME'24/25和GPQA基准测试中，使用400个样本训练128个epoch的Olmo3-7B，比使用51200个样本训练1个epoch的模型性能高出12-26个百分点，且没有额外的灾难性遗忘。研究发现，token准确率能够可靠地指示重复训练何时达到饱和；当完全记忆时，额外epoch带来的改进趋于平稳，这种模式在所有设置中都是一致的。这些发现为推理SFT提供了一种实用的方法，其中将epoch与token准确率作为停止标准，可以取代昂贵的无向数据扩增。本文提出了重复优势，即完全记忆与改进的泛化能力同时发生，这是一个新的开放问题，旨在让社区理解大型语言模型的训练动态。

🔬 方法详解

问题定义：论文旨在解决在链式思考（CoT）监督微调（SFT）中，如何更有效地利用有限的数据资源来提升大型语言模型（LLM）的推理能力的问题。现有方法通常依赖于大规模数据集的单轮训练，但这种方法成本高昂，且边际效益递减。此外，简单地增加数据集规模并不一定能带来显著的性能提升，反而可能引入噪声或冗余信息，影响模型的泛化能力。

核心思路：论文的核心思路是利用数据重复（Data Repetition）策略，即在较小规模的数据集上进行多轮训练。作者认为，通过重复训练，模型可以更充分地学习和记忆数据集中的信息，从而提高其推理能力。这种方法的关键在于，在达到完全记忆（Full Memorization）之前，重复训练可以持续提升模型性能。

技术框架：论文的技术框架主要包括以下几个步骤：1）选择一个预训练的LLM（如Olmo3-7B）；2）准备一个相对较小的CoT数据集；3）使用标准SFT方法，在数据集上进行多轮训练；4）使用token准确率作为停止标准，当token准确率达到饱和时，停止训练；5）在推理基准（如AIME'24/25和GPQA）上评估模型性能。

关键创新：论文最重要的技术创新点在于发现了数据重复在SFT中的优势。与传统的机器学习直觉相反，论文表明，在固定的计算资源下，重复训练小数据集比单轮训练大数据集更有效。此外，论文还提出了使用token准确率作为停止标准的实用方法，可以避免过度训练，并节省计算资源。

关键设计：论文的关键设计包括：1）选择合适的重复次数（epoch），通过token准确率监控训练过程，当token准确率达到饱和时停止训练；2）使用标准的SFT方法进行训练，没有引入额外的正则化或优化技巧；3）在多个推理基准上进行评估，以验证数据重复策略的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在AIME'24/25和GPQA基准测试中，使用400个样本训练128个epoch的Olmo3-7B，比使用51200个样本训练1个epoch的模型性能高出12-26个百分点。这表明数据重复策略在推理任务上具有显著优势，且没有观察到灾难性遗忘。

🎯 应用场景

该研究成果可应用于各种需要进行链式思考的语言模型微调任务，例如问答系统、科学推理、数学问题求解等。通过重复训练小规模高质量数据集，可以显著降低训练成本，提高模型性能，并加速LLM在实际场景中的部署。

📄 摘要（原文）

Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理