Sketching the Readout of Large Language Models for Scalable Data Attribution and Valuation

作者: Yide Ran, Jianwen Xie, Minghui Wang, Wenjin Zheng, Denghui Zhang, Chuan Li, Zhaozhuo Xu

分类: cs.LG

发布日期: 2026-04-17

备注: 54 pages

💡 一句话要点

提出RISE：通过草图化LLM输出层影响热点，实现可扩展的数据归因与估值

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据归因 数据估值 影响力分析 梯度压缩

📋 核心要点

现有基于梯度的LLM数据归因方法面临可扩展性挑战，难以应用于大型模型。
RISE通过聚焦LLM输出层的影响热点，并利用草图技术压缩梯度信息，实现高效的数据归因。
实验表明，RISE在减少存储空间的同时，保持了准确的归因效果，并在多个任务上验证了其有效性。

📝 摘要（中文）

数据归因和估值对于理解大型语言模型(LLM)的数据-模型协同至关重要，但现有的基于梯度的方法在LLM上存在可扩展性挑战。受人类认知的启发，决策依赖于对相关记忆的集中读取，而不是重放所有路径，我们引入了RISE（Readout Influence Sketching Estimator）。RISE不是计算和索引整个LLM的梯度，而是专注于输出层的影响热点，这里的影响信号集中，并且梯度呈现分解的外积形式。这使得双通道表示成为可能，结合了词汇残差通道（RH）和语义投影误差通道（GH）。将CountSketch投影应用于这些通道，实现了强大的压缩，同时保持了准确的归因。在OLMo（1B-32B）和Pythia（14M-6.9B）系列中，与RapidIn相比，RISE减少了高达112倍的索引存储，并可扩展到32B参数LLM，而RapidIn和ZO-Inf等基于梯度的基线方法在内存上变得不可行。我们在两种范例上评估RISE：（1）回顾性归因，检索特定预测的有影响力的训练示例；（2）前瞻性估值，零样本地对候选数据效用进行评分。我们在三个任务上验证了RISE：Howdy后门数据检测、金融-医疗领域分离和Brain Rot高质量数据选择。在一个闭环Brain Rot研究中，在RISE选择的数据上继续预训练产生了持续的下游改进。总的来说，RISE为现代大型语言模型中的影响分析和训练数据选择提供了一个实用且可扩展的原语。

🔬 方法详解

问题定义：现有基于梯度的LLM数据归因方法，如RapidIn和ZO-Inf，需要计算和存储整个模型的梯度信息，这在参数量巨大的LLM上变得不可行，导致内存溢出和计算效率低下。这些方法难以应用于实际的大规模模型训练数据分析和选择。

核心思路：RISE的核心思想是借鉴人类认知中“聚焦读取”机制，认为LLM的决策主要受到输出层附近的影响热点驱动。因此，无需计算整个模型的梯度，只需关注输出层的影响，并通过草图技术压缩这些影响信息，从而降低计算和存储成本。

技术框架：RISE包含以下主要步骤：1) 影响热点定位：确定LLM输出层的影响热点区域。2) 双通道表示：将梯度分解为词汇残差通道（RH）和语义投影误差通道（GH），分别捕捉词汇和语义层面的影响。3) CountSketch投影：利用CountSketch算法对RH和GH进行压缩，生成低维草图。4) 归因/估值：利用压缩后的草图进行数据归因或估值，例如检索有影响力的训练样本或评估候选数据的效用。

关键创新：RISE的关键创新在于：1) 聚焦输出层：将计算集中在输出层，显著减少了计算量。2) 双通道表示：利用词汇和语义双通道捕捉更全面的影响信息。3) CountSketch压缩：使用CountSketch算法进行高效的梯度压缩，降低了存储成本。与现有方法相比，RISE避免了对整个模型梯度的计算和存储，从而实现了更好的可扩展性。

关键设计：RISE的关键设计包括：1) CountSketch参数：选择合适的CountSketch哈希函数和草图大小，以平衡压缩率和精度。2) 双通道权重：调整词汇残差通道（RH）和语义投影误差通道（GH）的权重，以适应不同的任务和模型。3) 影响度量：设计合适的影响度量指标，用于评估训练样本对模型预测的影响程度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RISE在OLMo (1B-32B) 和 Pythia (14M-6.9B) 模型家族上，相比 RapidIn 减少了高达 112 倍的索引存储空间，并成功扩展到 32B 参数的 LLM，而 RapidIn 和 ZO-Inf 等基线方法因内存限制而无法运行。在 Brain Rot 数据集上的闭环实验中，使用 RISE 选择的数据进行持续预训练，能够持续提升下游任务的性能。

🎯 应用场景

RISE可应用于多种场景，包括：1) 数据溯源：追溯模型预测错误的根本原因，识别有毒或有害的训练数据。2) 数据估值：评估训练数据的质量和效用，指导数据收集和清洗。3) 模型调试：识别影响模型性能的关键训练样本，优化训练策略。4) 安全防御：检测和防御后门攻击，提高模型的鲁棒性。RISE有望促进LLM的负责任使用和持续改进。

📄 摘要（原文）

Data attribution and valuation are critical for understanding data-model synergy for Large Language Models (LLMs), yet existing gradient-based methods suffer from scalability challenges on LLMs. Inspired by human cognition, where decision making relies on a focused readout of relevant memories rather than replaying all pathways, we introduce RISE (Readout Influence Sketching Estimator). Instead of computing and indexing gradients across the entire LLM, RISE focuses on influence hotspots at the output layer, where influence signals concentrate, and the gradient admits a decomposed outer-product form. This enables a dual-channel representation combining a lexical residual channel (RH) and a semantic projected-error channel (GH). Applying CountSketch projections to these channels achieves strong compression while maintaining accurate attribution. Across the OLMo (1B-32B) and Pythia (14M-6.9B) families, RISE reduces index storage by up to 112$\times$ compared to RapidIn and scales to 32B parameters LLM, where gradient-based baselines such as RapidIn and ZO-Inf become memory-infeasible. We evaluate RISE on two paradigms: (1) retrospective attribution, retrieving influential training examples for specific predictions, and (2) prospective valuation, scoring candidate data utility zero-shot. We validate RISE on three tasks: Howdy backdoor data detection, Finance-Medical domain separation, and Brain Rot high-quality data selection. In a closed-loop Brain Rot study, continued pretraining on RISE-selected data yields consistent downstream improvements. Overall, RISE provides a practical and scalable primitive for influence analysis and training-data selection in modern large language models.

Sketching the Readout of Large Language Models for Scalable Data Attribution and Valuation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理