Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

作者: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Xingzhang Ren, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang

分类: cs.CL

发布日期: 2025-09-28 (更新: 2026-02-03)

备注: 26 pages, 9 figures, 15 tables

💡 一句话要点

提出Q-Tuning，联合优化样本和Token剪枝，提升大模型SFT效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督微调 数据剪枝 大语言模型 模型压缩 数据效率 误差-不确定性 token剪枝 样本剪枝

📋 核心要点

现有SFT方法在数据剪枝上存在割裂，无法同时在样本和token层面进行优化，导致效率低下。
Q-Tuning通过误差-不确定性(EU)平面，指导样本和token的联合剪枝，保留关键信息。
实验表明，Q-Tuning在多个基准上超越了全数据SFT，例如在SmolLM2-1.7B上提升了38%。

📝 摘要（中文）

随着监督微调(SFT)从轻量级后训练步骤演变为计算密集型阶段，其规模可与模型训练中期相媲美，数据效率对于在预算紧张的情况下对齐大型语言模型(LLM)至关重要。现有的数据剪枝方法存在设计上的割裂：它们要么在样本层面操作，要么在token层面独立操作，未能联合优化这两个维度。这种脱节导致了显著的效率低下——高价值的样本可能仍然包含冗余的token，而token层面的剪枝往往会丢弃嵌入在单个例子中的关键指导或纠正信号。为了解决这个瓶颈，我们引入了误差-不确定性(EU)平面，这是一个诊断框架，它共同表征了训练数据在样本和token上的异构效用。在这一洞察的指导下，我们提出了一种基于象限的调优(Q-Tuning)的统一框架，该框架策略性地协调样本剪枝和token剪枝。Q-Tuning采用两阶段策略：首先，它执行样本层面的分类，以保留富含信息性误解或校准信号的例子；其次，它应用非对称的token剪枝策略，使用上下文感知的评分机制来修剪仅来自误解样本的不太显著的token，同时完整地保留校准样本。我们的方法在五个不同的基准上创造了新的技术水平。值得注意的是，在SmolLM2-1.7B上，Q-Tuning仅使用原始训练数据的12.5%，就实现了比全数据SFT基线平均+38%的改进。作为第一个始终优于全数据训练的动态剪枝方法，Q-Tuning为在预算受限的LLM SFT中最大化数据利用率提供了一个实用且可扩展的蓝图。

🔬 方法详解

问题定义：论文旨在解决现有监督微调（SFT）过程中数据效率低下的问题。具体来说，现有的数据剪枝方法通常孤立地在样本层面或token层面进行操作，无法联合优化，导致重要信息丢失或冗余信息保留，从而影响模型性能。

核心思路：论文的核心思路是引入“误差-不确定性(EU)平面”来诊断训练数据在样本和token层面的效用，并基于此设计一个统一的框架Q-Tuning，策略性地协调样本剪枝和token剪枝。通过区分包含“信息性误解”和“校准信号”的样本，并采取不同的剪枝策略，从而更有效地利用训练数据。

技术框架：Q-Tuning包含两个主要阶段： 1. 样本层面分类(Sample-level Triage)：根据EU平面，将训练样本分为“信息性误解”样本和“校准信号”样本，保留有价值的样本。 2. 非对称Token剪枝(Asymmetric Token Pruning)：对不同类型的样本应用不同的token剪枝策略。对“信息性误解”样本进行token剪枝，去除不重要的token；对“校准信号”样本则完整保留，避免损失校准信息。

关键创新：Q-Tuning的关键创新在于提出了一个统一的框架，能够同时考虑样本和token层面的重要性，并根据样本的类型采取不同的剪枝策略。与现有方法相比，Q-Tuning能够更精细地控制数据的使用，从而提高SFT的效率和性能。这是第一个动态剪枝方法能够持续超越全量数据训练的方法。

关键设计： * 误差-不确定性(EU)平面：通过计算每个样本和token的误差和不确定性，将其映射到EU平面上，从而判断其重要性。 * 上下文感知的评分机制：用于评估token的重要性，并决定是否进行剪枝。 * 非对称剪枝策略：对“信息性误解”样本和“校准信号”样本采用不同的剪枝比例，以平衡信息保留和计算效率。

🖼️ 关键图片

📊 实验亮点

Q-Tuning在五个不同的基准测试中均取得了显著的性能提升。特别是在SmolLM2-1.7B模型上，仅使用12.5%的原始训练数据，就实现了比全数据SFT基线平均+38%的改进。这一结果表明Q-Tuning能够显著提高SFT的数据效率，并在资源受限的情况下实现更好的模型性能。

🎯 应用场景

Q-Tuning可应用于各种预算受限的大型语言模型监督微调场景，尤其是在数据量庞大但计算资源有限的情况下。该方法能够有效提升数据利用率，降低训练成本，加速模型迭代，并可推广到其他需要数据剪枝的机器学习任务中，具有广泛的应用前景。

📄 摘要（原文）

As supervised fine-tuning (SFT) evolves from a lightweight post-training step into a compute-intensive phase rivaling mid-training in scale, data efficiency has become critical for aligning large language models (LLMs) under tight budgets. Existing data pruning methods suffer from a fragmented design: they operate either at the sample level or the token level in isolation, failing to jointly optimize both dimensions. This disconnect leads to significant inefficiencies--high-value samples may still contain redundant tokens, while token-level pruning often discards crucial instructional or corrective signals embedded in individual examples. To address this bottleneck, we introduce the Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes the heterogeneous utility of training data across samples and tokens. Guided by this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework that strategically coordinates sample pruning and token pruning. Q-Tuning employs a two-stage strategy: first, it performs sample-level triage to retain examples rich in informative misconceptions or calibration signals; second, it applies an asymmetric token-pruning policy, using a context-aware scoring mechanism to trim less salient tokens exclusively from misconception samples while preserving calibration samples in their entirety. Our method sets a new state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B, Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline using only 12.5\% of the original training data. As the first dynamic pruning approach to consistently outperform full-data training, Q-Tuning provides a practical and scalable blueprint for maximizing data utilization in budget-constrained LLM SFT.

Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理