STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations
作者: Rishit Dagli, Abir Harrasse, Luke Zhang, Florent Draye, Amirali Abdullah, Bernhard Schölkopf, Zhijing Jin
分类: cs.LG, cs.CL
发布日期: 2026-06-03
备注: project page: https://stride-tda.github.io/
💡 一句话要点
提出STRIDE以解决训练数据归因问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 训练数据归因 大型语言模型 稀疏恢复 引导算子 数据选择 模型解释
📋 核心要点
- 现有的训练数据归因方法在大型语言模型中面临高计算成本和局部近似的挑战。
- 本文提出STRIDE框架,通过稀疏恢复方法建模训练数据的功能影响,避免了直接参数估计的复杂性。
- STRIDE在LLM预训练归因中表现出色,速度比现有方法快13倍,并在多个下游任务中展示了其有效性。
📝 摘要(中文)
训练数据归因(TDA)旨在追踪模型预测与其训练数据之间的关系。传统方法依赖因果干预,但在大型语言模型(LLMs)中,重复重训练的计算成本极高。现有方法多通过参数空间中的梯度近似,但这种方法不仅昂贵且依赖局部近似。本文提出STRIDE(基于引导的训练数据影响分解),将TDA建模为稀疏恢复问题,学习轻量级的“引导算子”,模拟训练数据子集引起的行为变化。通过测量这些算子对测试预测的扰动,利用稀疏线性分解恢复单个训练样本的影响。STRIDE在LLM预训练归因方面实现了最先进的性能,速度比之前的方法快了约13倍,并通过数据选择、数据污染和定性分析等下游应用验证了其实用性。
🔬 方法详解
问题定义:本文旨在解决训练数据归因(TDA)中因果干预的计算挑战,尤其是在大型语言模型中,传统方法的重训练成本过高,且依赖于梯度的局部近似。
核心思路:STRIDE通过将TDA视为稀疏恢复问题,采用引导算子来模拟训练数据对模型行为的影响,避免了对参数变化的直接估计。
技术框架:STRIDE的整体架构包括数据子集的选择、引导算子的学习以及通过稀疏线性分解恢复训练样本影响的过程。主要模块包括引导算子的生成和影响测量。
关键创新:STRIDE的核心创新在于将训练数据影响建模为稀疏恢复问题,显著提高了计算效率,并且与传统方法相比,减少了对参数空间的依赖。
关键设计:在设计中,STRIDE采用了轻量级的引导算子,优化了损失函数以适应稀疏恢复的需求,并在网络结构上进行了调整,以提高对训练数据影响的捕捉能力。
🖼️ 关键图片
📊 实验亮点
STRIDE在LLM预训练归因任务中实现了最先进的性能,速度比之前的技术快了13倍,显著提高了计算效率。此外,STRIDE在数据选择和污染检测等下游应用中表现出色,验证了其实际应用价值。
🎯 应用场景
STRIDE的研究成果在多个领域具有潜在应用价值,包括数据选择、数据污染检测和模型解释等。通过有效追踪训练数据对模型预测的影响,研究者和工程师可以更好地理解和优化模型性能,提升数据管理和模型透明度。
📄 摘要(原文)
Training Data Attribution (TDA) seeks to trace a model's predictions back to its training data. The gold standard for TDA relies on causal interventions, observing how a model changes when data is added or removed, but repeated retraining is computationally challenging for Large Language Models (LLMs). Consequently, most approaches approximate this effect in the parameter space using gradients. However, tracking gradients across billions of parameters is not only prohibitively expensive but relies on local approximations. In this work, we propose a shift: rather than estimating parameter changes, we model the functional effect of training data in the activation space. We introduce STRIDE (Steering-based Training Data Influence Decomposition), a framework that formulates TDA as a sparse recovery problem in the spirit of compressive sensing. STRIDE learns lightweight "steering operators" that mimic the behavioral shift caused by training on data subsets. By measuring how these operators perturb test predictions, we recover individual training example influences via sparse linear decomposition. STRIDE achieves state-of-the-art for LLM pre-training attribution while being an order of magnitude ($13\times$) faster than previous art. We further validate its practical utility through downstream applications including data selection, data contamination, and qualitative analysis.