A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

📄 arXiv: 2510.25817v1 📥 PDF

作者: Junyu Luo, Bohan Wu, Xiao Luo, Zhiping Xiao, Yiqiao Jin, Rong-Cheng Tu, Nan Yin, Yifan Wang, Jingyang Yuan, Wei Ju, Ming Zhang

分类: cs.CL

发布日期: 2025-10-29

备注: ACL 2025

DOI: 10.18653/v1/2025.acl-long.1493

🔗 代码/项目: GITHUB


💡 一句话要点

综述:数据中心视角下高效大语言模型训练方法研究

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数据高效训练 后训练 数据选择 数据增强 合成数据 数据蒸馏 数据质量

📋 核心要点

  1. 现有大语言模型后训练面临数据标注成本高、数据规模收益递减等挑战,阻碍了模型在特定任务和领域的泛化能力。
  2. 该综述从数据中心视角出发,系统性地研究数据高效的大语言模型后训练方法,旨在提升数据利用率,降低训练成本。
  3. 论文对数据高效方法进行分类,包括数据选择、质量增强、合成数据生成等,并探讨了未来研究方向和开放性问题。

📝 摘要(中文)

大语言模型(LLM)的后训练对于释放其任务泛化潜力和领域特定能力至关重要。然而,当前的LLM后训练范式面临着显著的数据挑战,包括高昂的人工标注成本和数据规模带来的边际效益递减。因此,实现数据高效的后训练已成为一个关键的研究问题。本文首次从数据中心视角对数据高效的LLM后训练进行了系统性综述。我们提出了一个数据高效LLM后训练方法的分类体系,涵盖数据选择、数据质量增强、合成数据生成、数据蒸馏与压缩以及自进化数据生态系统。我们总结了每个类别中的代表性方法,并概述了未来的研究方向。通过检查数据高效LLM后训练中的挑战,我们强调了开放性问题,并提出了潜在的研究途径。我们希望我们的工作能够激发对最大化大规模模型训练中数据利用潜力的进一步探索。

🔬 方法详解

问题定义:论文旨在解决大语言模型后训练过程中数据效率低下的问题。现有方法依赖大量人工标注数据,成本高昂,且随着数据规模增大,训练收益递减。因此,如何利用更少、更有效的数据进行后训练,成为一个亟待解决的问题。

核心思路:论文的核心思路是从数据本身出发,通过数据选择、数据增强、数据合成等手段,提升训练数据的质量和效率,从而在较少数据量的情况下,达到甚至超过传统大规模训练的效果。这种以数据为中心的策略,旨在挖掘数据的内在价值,降低对数据规模的依赖。

技术框架:论文构建了一个数据高效LLM后训练方法的分类体系,主要包含以下几个模块: 1. 数据选择:从海量数据中选择对模型训练最有价值的子集。 2. 数据质量增强:通过清洗、纠错等手段提升现有数据的质量。 3. 合成数据生成:利用模型或规则生成新的训练数据。 4. 数据蒸馏与压缩:将大型模型的知识迁移到小型模型,或对数据进行压缩。 5. 自进化数据生态系统:构建一个能够自动优化和演进的数据管理系统。

关键创新:该综述的关键创新在于其视角转换,即从模型优化转向数据优化。以往的研究更多关注模型结构和训练算法的改进,而该综述强调数据的质量和效率,认为数据本身蕴含着巨大的潜力。这种数据中心的方法论,为大语言模型训练提供了新的思路。

关键设计:论文没有涉及具体的技术细节,而是在各个数据高效方法类别下,总结了代表性的方法和技术。例如,在数据选择方面,介绍了基于模型不确定性的选择方法;在数据增强方面,介绍了基于对抗攻击的增强方法;在数据合成方面,介绍了基于生成模型的合成方法。这些方法各有特点,适用于不同的场景和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述系统性地总结了数据高效大语言模型后训练的各种方法,并指出了未来研究方向。虽然没有提供具体的实验数据,但通过对现有方法的分类和分析,为研究者提供了一个清晰的路线图,有助于他们更好地理解和应用数据高效技术,从而提升模型性能并降低训练成本。

🎯 应用场景

该研究成果可广泛应用于各种需要大语言模型进行微调或后训练的场景,例如智能客服、机器翻译、文本生成等。通过提高数据效率,可以降低训练成本,缩短开发周期,并使得在资源有限的环境下也能训练出高性能的模型。未来,随着数据高效技术的不断发展,有望推动大语言模型在更多领域的应用。

📄 摘要(原文)

Post-training of Large Language Models (LLMs) is crucial for unlocking their task generalization potential and domain-specific capabilities. However, the current LLM post-training paradigm faces significant data challenges, including the high costs of manual annotation and diminishing marginal returns on data scales. Therefore, achieving data-efficient post-training has become a key research question. In this paper, we present the first systematic survey of data-efficient LLM post-training from a data-centric perspective. We propose a taxonomy of data-efficient LLM post-training methods, covering data selection, data quality enhancement, synthetic data generation, data distillation and compression, and self-evolving data ecosystems. We summarize representative approaches in each category and outline future research directions. By examining the challenges in data-efficient LLM post-training, we highlight open problems and propose potential research avenues. We hope our work inspires further exploration into maximizing the potential of data utilization in large-scale model training. Paper List: https://github.com/luo-junyu/Awesome-Data-Efficient-LLM