SPICE: Submodular Penalized Information-Conflict Selection for Efficient Large Language Model Training

作者: Powei Chang, Jinpeng Zhang, Bowen Chen, Chenyu Wang, Chenlu Guo, Yixing Zhang, Yukang Gao, JianXiang Xiang, Yue Gao, Chaoqun Sun, Yiyi Chen, Dongying Kong

分类: cs.LG, cs.AI

发布日期: 2026-01-30

备注: 39 pages, 9 figures, 15 tables (including appendices)

💡 一句话要点

SPICE：通过子模惩罚信息冲突选择高效的大语言模型训练数据

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数据选择 指令调优 梯度冲突 子模优化 高效训练 信息增益

📋 核心要点

现有基于信息的指令调优数据选择方法忽略了梯度冲突问题，导致信息增益衰减，影响训练效率。
SPICE通过惩罚梯度不一致性，在最大化信息的同时缓解梯度冲突，从而更有效地选择训练数据。
实验表明，SPICE仅使用10%的数据即可匹配甚至超过全数据调优等方法，显著降低了训练成本。

📝 摘要（中文）

本文提出了一种基于信息的指令调优数据选择方法。该方法旨在最大化Fisher信息的对数行列式，这是一个单调子模目标，允许贪婪算法在基数预算下实现(1-1/e)近似。研究发现，缓解梯度冲突（即样本梯度之间的不一致）是减缓边际对数行列式信息增益衰减的关键因素，从而避免了信息的大量损失。通过ε-分解，将理想子模性的偏差量化为冲突统计的函数，从而产生数据相关的近似因子。基于此，提出了SPICE，一种冲突感知选择器，它在最大化信息的同时惩罚不一致性，并支持提前停止和代理模型以提高效率。实验表明，SPICE选择的子集具有比原始标准更高的对数行列式信息，并且这些信息增益转化为性能改进：在使用LLaMA2-7B和Qwen2-7B的8个基准测试中，SPICE仅使用10%的数据，但匹配或超过了包括全数据调优在内的6种方法。这以更低的训练成本实现了性能改进。

🔬 方法详解

问题定义：现有基于信息的指令调优数据选择方法，例如最大化Fisher信息的对数行列式，虽然具有良好的理论性质（子模性），但在实际应用中，由于训练数据中存在梯度冲突，导致边际信息增益迅速衰减，使得选择的数据子集仍然包含大量冗余信息，无法充分利用有限的计算资源。因此，如何选择更具信息量且梯度冲突较小的数据子集，是本文要解决的核心问题。

核心思路：本文的核心思路是，在选择数据子集时，不仅要考虑数据的信息量（通过Fisher信息的对数行列式来衡量），还要考虑数据之间的梯度冲突程度。通过引入一个惩罚项，对梯度冲突较大的数据进行惩罚，从而鼓励选择梯度一致性较高的数据。这样选择出的数据子集，能够更有效地提升模型的训练效果。

技术框架：SPICE的整体框架可以分为以下几个步骤：1. 计算每个样本的梯度；2. 计算样本之间的梯度冲突程度；3. 构建一个目标函数，该函数包含信息增益项和梯度冲突惩罚项；4. 使用贪婪算法最大化目标函数，选择数据子集。为了提高效率，SPICE还支持提前停止和使用代理模型来估计梯度。

关键创新：SPICE的关键创新在于提出了一个冲突感知的选择器，它将梯度冲突纳入了数据选择的考虑范围。通过对梯度冲突进行量化和惩罚，SPICE能够选择出更具信息量且梯度一致性更高的数据子集。这种方法与现有方法的本质区别在于，现有方法只关注数据的信息量，而忽略了数据之间的相互作用（梯度冲突）。

关键设计：SPICE的关键设计包括：1. 使用ε-分解来量化梯度冲突对子模性的影响；2. 设计了一个包含信息增益项和梯度冲突惩罚项的目标函数；3. 使用贪婪算法来近似最大化目标函数；4. 为了提高效率，使用了提前停止和代理模型等技术。梯度冲突惩罚项的具体形式需要根据具体任务进行调整，可以采用不同的距离度量方式来衡量梯度之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPICE在8个基准测试中，仅使用10%的数据，即可匹配甚至超过全数据调优等6种方法，显著降低了训练成本。例如，在使用LLaMA2-7B和Qwen2-7B模型时，SPICE选择的数据子集具有更高的对数行列式信息，并且这些信息增益转化为了性能的提升。这些结果验证了SPICE的有效性和优越性。

🎯 应用场景

SPICE可应用于各种需要高效训练大语言模型的场景，例如：指令调优、领域自适应、持续学习等。通过选择更具信息量且梯度冲突较小的数据子集，SPICE能够显著降低训练成本，提高训练效率，使得在有限的计算资源下训练出高性能的大语言模型成为可能。该方法具有广泛的应用前景，可以加速大语言模型在各个领域的部署和应用。

📄 摘要（原文）

Information-based data selection for instruction tuning is compelling: maximizing the log-determinant of the Fisher information yields a monotone submodular objective, enabling greedy algorithms to achieve a $(1-1/e)$ approximation under a cardinality budget. In practice, however, we identify alleviating gradient conflicts, misalignment between per-sample gradients, is a key factor that slows down the decay of marginal log-determinant information gains, thereby preventing significant loss of information. We formalize this via an $\varepsilon$-decomposition that quantifies the deviation from ideal submodularity as a function of conflict statistics, yielding data-dependent approximation factors that tighten as conflicts diminish. Guided by this analysis, we propose SPICE, a conflict-aware selector that maximizes information while penalizing misalignment, and that supports early stopping and proxy models for efficiency. Empirically, SPICE selects subsets with higher log-determinant information than original criteria, and these informational gains translate into performance improvements: across 8 benchmarks with LLaMA2-7B and Qwen2-7B, SPICE uses only 10% of the data, yet matches or exceeds 6 methods including full-data tuning. This achieves performance improvements with substantially lower training cost.

SPICE: Submodular Penalized Information-Conflict Selection for Efficient Large Language Model Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理