Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning
作者: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Xingzhang Ren, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang
分类: cs.CL
发布日期: 2025-09-28 (更新: 2026-02-03)
备注: 26 pages, 9 figures, 15 tables
💡 一句话要点
提出Q-Tuning,联合优化样本和Token剪枝,提升大模型SFT效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 监督微调 数据剪枝 大语言模型 模型压缩 数据效率 误差-不确定性 token剪枝 样本剪枝
📋 核心要点
- 现有SFT方法在数据剪枝上存在割裂,无法同时在样本和token层面进行优化,导致效率低下。
- Q-Tuning通过误差-不确定性(EU)平面,指导样本和token的联合剪枝,保留关键信息。
- 实验表明,Q-Tuning在多个基准上超越了全数据SFT,例如在SmolLM2-1.7B上提升了38%。
📝 摘要(中文)
随着监督微调(SFT)从轻量级后训练步骤演变为计算密集型阶段,其规模可与模型训练中期相媲美,数据效率对于在预算紧张的情况下对齐大型语言模型(LLM)至关重要。现有的数据剪枝方法存在设计上的割裂:它们要么在样本层面操作,要么在token层面独立操作,未能联合优化这两个维度。这种脱节导致了显著的效率低下——高价值的样本可能仍然包含冗余的token,而token层面的剪枝往往会丢弃嵌入在单个例子中的关键指导或纠正信号。为了解决这个瓶颈,我们引入了误差-不确定性(EU)平面,这是一个诊断框架,它共同表征了训练数据在样本和token上的异构效用。在这一洞察的指导下,我们提出了一种基于象限的调优(Q-Tuning)的统一框架,该框架策略性地协调样本剪枝和token剪枝。Q-Tuning采用两阶段策略:首先,它执行样本层面的分类,以保留富含信息性误解或校准信号的例子;其次,它应用非对称的token剪枝策略,使用上下文感知的评分机制来修剪仅来自误解样本的不太显著的token,同时完整地保留校准样本。我们的方法在五个不同的基准上创造了新的技术水平。值得注意的是,在SmolLM2-1.7B上,Q-Tuning仅使用原始训练数据的12.5%,就实现了比全数据SFT基线平均+38%的改进。作为第一个始终优于全数据训练的动态剪枝方法,Q-Tuning为在预算受限的LLM SFT中最大化数据利用率提供了一个实用且可扩展的蓝图。
🔬 方法详解
问题定义:论文旨在解决现有监督微调(SFT)过程中数据效率低下的问题。具体来说,现有的数据剪枝方法通常孤立地在样本层面或token层面进行操作,无法联合优化,导致重要信息丢失或冗余信息保留,从而影响模型性能。
核心思路:论文的核心思路是引入“误差-不确定性(EU)平面”来诊断训练数据在样本和token层面的效用,并基于此设计一个统一的框架Q-Tuning,策略性地协调样本剪枝和token剪枝。通过区分包含“信息性误解”和“校准信号”的样本,并采取不同的剪枝策略,从而更有效地利用训练数据。
技术框架:Q-Tuning包含两个主要阶段: 1. 样本层面分类(Sample-level Triage):根据EU平面,将训练样本分为“信息性误解”样本和“校准信号”样本,保留有价值的样本。 2. 非对称Token剪枝(Asymmetric Token Pruning):对不同类型的样本应用不同的token剪枝策略。对“信息性误解”样本进行token剪枝,去除不重要的token;对“校准信号”样本则完整保留,避免损失校准信息。
关键创新:Q-Tuning的关键创新在于提出了一个统一的框架,能够同时考虑样本和token层面的重要性,并根据样本的类型采取不同的剪枝策略。与现有方法相比,Q-Tuning能够更精细地控制数据的使用,从而提高SFT的效率和性能。这是第一个动态剪枝方法能够持续超越全量数据训练的方法。
关键设计: * 误差-不确定性(EU)平面:通过计算每个样本和token的误差和不确定性,将其映射到EU平面上,从而判断其重要性。 * 上下文感知的评分机制:用于评估token的重要性,并决定是否进行剪枝。 * 非对称剪枝策略:对“信息性误解”样本和“校准信号”样本采用不同的剪枝比例,以平衡信息保留和计算效率。
🖼️ 关键图片
📊 实验亮点
Q-Tuning在五个不同的基准测试中均取得了显著的性能提升。特别是在SmolLM2-1.7B模型上,仅使用12.5%的原始训练数据,就实现了比全数据SFT基线平均+38%的改进。这一结果表明Q-Tuning能够显著提高SFT的数据效率,并在资源受限的情况下实现更好的模型性能。
🎯 应用场景
Q-Tuning可应用于各种预算受限的大型语言模型监督微调场景,尤其是在数据量庞大但计算资源有限的情况下。该方法能够有效提升数据利用率,降低训练成本,加速模型迭代,并可推广到其他需要数据剪枝的机器学习任务中,具有广泛的应用前景。
📄 摘要(原文)
As supervised fine-tuning (SFT) evolves from a lightweight post-training step into a compute-intensive phase rivaling mid-training in scale, data efficiency has become critical for aligning large language models (LLMs) under tight budgets. Existing data pruning methods suffer from a fragmented design: they operate either at the sample level or the token level in isolation, failing to jointly optimize both dimensions. This disconnect leads to significant inefficiencies--high-value samples may still contain redundant tokens, while token-level pruning often discards crucial instructional or corrective signals embedded in individual examples. To address this bottleneck, we introduce the Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes the heterogeneous utility of training data across samples and tokens. Guided by this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework that strategically coordinates sample pruning and token pruning. Q-Tuning employs a two-stage strategy: first, it performs sample-level triage to retain examples rich in informative misconceptions or calibration signals; second, it applies an asymmetric token-pruning policy, using a context-aware scoring mechanism to trim less salient tokens exclusively from misconception samples while preserving calibration samples in their entirety. Our method sets a new state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B, Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline using only 12.5\% of the original training data. As the first dynamic pruning approach to consistently outperform full-data training, Q-Tuning provides a practical and scalable blueprint for maximizing data utilization in budget-constrained LLM SFT.