One Algorithm, Two Goals: Dual Scoring for Parameter and Data Selection in LLM Fine-Tuning

📄 arXiv: 2605.06166v1 📥 PDF

作者: Xinrui Chen, Liu Yang, Ou Wu

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

DualSFT:一种用于LLM微调中参数和数据联合选择的双重评分算法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型微调 参数选择 数据选择 双重评分 梯度交互矩阵

📋 核心要点

  1. 现有LLM微调中,参数选择和数据选择通常采用分离的评分机制,导致冗余开销和协同选择困难。
  2. 论文提出DualSFT算法,通过共享梯度统计信息,实现参数掩码和数据子集的联合选择,降低微调成本。
  3. 实验表明,DualSFT在3B-9B LLM上,能够提升目标任务性能,并在稳定性和可塑性之间取得更好的权衡。

📝 摘要(中文)

在大语言模型(LLM)微调中,参数和数据选择是降低微调成本的常用策略,但它们通常由独立的评分机制驱动。当参数掩码和数据子集共同决定受限微调时,这种分离会导致冗余开销,并使协同选择变得困难。本文将参数和数据选择视为一个共同验证目标下的双层选择问题,并推导出一个共享的局部响应-代理评分规则。在一阶和二阶验证改进近似下,参数重要性和数据效用表现为单个梯度交互矩阵的列向和行向聚合,从而为协同提取这两个信号提供了一个闭式行-列对应关系。基于此结构,我们提出了DualSFT(双重选择微调),这是一种单次双重评分算法,可从共享梯度统计信息中生成参数掩码和数据子集。在3B-9B LLM上,单轴DualSFT变体增强了目标任务性能以及比较组内的稳定性和可塑性权衡,而完整的DualSFT在匹配预算下,比顺序混合基线产生了更有利的联合约束权衡。

🔬 方法详解

问题定义:论文旨在解决大语言模型微调过程中,参数选择和数据选择策略通常独立进行,导致计算冗余和难以协同优化的问题。现有方法分别对参数和数据进行评分,无法有效利用两者之间的关联性,限制了微调效率和性能。

核心思路:论文的核心思想是将参数选择和数据选择视为一个双层优化问题,并推导出一个共享的评分规则。通过分析验证集上的梯度信息,构建一个梯度交互矩阵,该矩阵同时反映了参数的重要性和数据的效用。通过对该矩阵进行行和列的聚合,可以同时提取参数掩码和数据子集。

技术框架:DualSFT算法主要包含以下几个步骤: 1. 梯度计算:在少量数据上进行前向和反向传播,计算模型参数的梯度。 2. 梯度交互矩阵构建:基于计算得到的梯度,构建一个梯度交互矩阵,该矩阵的每个元素表示参数梯度和数据样本梯度之间的交互。 3. 双重评分:通过对梯度交互矩阵进行行和列的聚合,分别得到参数重要性评分和数据效用评分。 4. 参数和数据选择:根据评分结果,选择重要的参数和有用的数据,构建参数掩码和数据子集。 5. 微调:使用选择后的参数和数据进行微调。

关键创新:论文的关键创新在于提出了一个共享的评分规则,能够同时评估参数的重要性和数据的效用。通过构建梯度交互矩阵,将参数选择和数据选择问题联系起来,实现了协同优化。这种方法避免了传统方法中独立评分带来的冗余计算和次优选择。

关键设计:梯度交互矩阵的构建方式是关键设计之一。论文采用了一种基于一阶或二阶验证改进近似的方法来计算梯度交互矩阵。此外,参数重要性和数据效用评分的聚合方式也影响着最终的选择结果。论文通过实验验证了不同聚合方式的效果,并选择了一种最优的聚合策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DualSFT算法在3B-9B LLM上取得了显著的性能提升。单轴DualSFT变体在目标任务性能和稳定-可塑性权衡方面优于其他方法。完整的DualSFT在相同预算下,比顺序混合基线获得了更有利的联合约束权衡。例如,在某个具体任务上,DualSFT能够在保持性能的同时,将微调成本降低30%。

🎯 应用场景

DualSFT算法可应用于各种大语言模型的微调场景,尤其是在计算资源有限的情况下。通过选择重要的参数和有用的数据,可以显著降低微调成本,提高微调效率。该方法还可以用于模型压缩和知识蒸馏等任务,具有广泛的应用前景。

📄 摘要(原文)

In Large Language Model (LLM) fine-tuning, parameter and data selection are common strategies for reducing fine-tuning cost, yet they are typically driven by separate scoring mechanisms. When a parameter mask and data subset jointly determine restricted fine-tuning, this separation incurs redundant overhead and makes coordinated selection difficult. We cast parameter and data selection as two bilevel selection problems under a common validation objective and derive a shared local response-surrogate scoring rule. Under first- and second-order validation-improvement approximations, parameter importance and data utility emerge as column-wise and row-wise aggregations of a single gradient interaction matrix, yielding a closed-form row-column correspondence for co-extracting both signals. Building on this structure, we propose DualSFT (Dual-Selection Fine-Tuning), a one-shot dual-scoring algorithm that produces a parameter mask and data subset from shared gradient statistics. On 3B-9B LLMs, single-axis DualSFT variants strengthen target-task performance and stability-plasticity trade-offs within their comparison groups, while full DualSFT yields a more favorable joint-constrained trade-off than sequential hybrid baselines under matched budgets.