LLMSurgeon: Diagnosing Data Mixture of Large Language Models
作者: Yaxin Luo, Jiacheng Cui, Xiaohan Zhao, Xinyi Shang, Jiacheng Liu, Xinyue Bi, Zhaoyi Li, Zhiqiang Shen
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-28
备注: ACL 2026 Main. Code at https://github.com/Yaxin9Luo/LLMSurgeon
💡 一句话要点
LLMSurgeon:诊断大型语言模型预训练数据混合比例,实现事后溯源。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据混合比例 事后审计 标签偏移 逆问题 领域分类 混淆矩阵
📋 核心要点
- 大型语言模型的预训练数据组成对其能力至关重要,但通常不公开,导致难以进行事后审计和溯源。
- LLMSurgeon将数据混合比例估计问题转化为标签偏移下的逆问题,通过校准软混淆矩阵来纠正领域混淆。
- LLMScan评估套件验证了LLMSurgeon的有效性,能够在固定协议下高精度地恢复领域混合比例。
📝 摘要(中文)
大型语言模型(LLM)的预训练数据混合构成了其“数字DNA”,塑造了模型的行为、能力和失效模式。然而,这种构成很少被公开,使得对数据组合或来源的事后审计变得困难。本文形式化了$ extbf{数据混合手术(DMS)}$:仅给定目标LLM生成的文本,估计其预训练语料库在预定义分类下的领域级分布。我们提出了$ extbf{LLMSurgeon}$,一个强大的框架,将DMS视为标签偏移假设下的逆问题。LLMSurgeon不是直接聚合分类器输出,而是估计一个校准的$ extit{软}$混淆矩阵,并解决一个约束逆问题,以纠正系统的领域混淆并恢复潜在的混合先验。为了评估,我们引入了$ extbf{LLMScan}$,一个由具有透明预训练混合的开源LLM构建的可验证评估套件。在LLMScan上,LLMSurgeon在固定协议下以高保真度恢复领域混合。我们的工作提出了一种实用的事后方法,用于审计基础模型的数字DNA,而无需访问其训练数据。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)预训练数据混合比例未知的问题。现有方法难以在不访问训练数据的情况下,准确估计LLM的预训练数据构成,这阻碍了对LLM行为、能力和潜在偏差的理解和控制。现有的方法通常依赖于直接聚合分类器的输出,但忽略了不同领域之间的混淆,导致估计结果不准确。
核心思路:LLMSurgeon的核心思路是将数据混合比例估计问题建模为标签偏移下的逆问题。通过构建和校准一个“软”混淆矩阵,来描述不同领域之间的混淆关系,然后利用这个混淆矩阵来反推真实的预训练数据混合比例。这种方法能够有效地纠正由于领域混淆带来的偏差,从而更准确地估计LLM的“数字DNA”。
技术框架:LLMSurgeon框架主要包含以下几个阶段:1) 文本生成:利用目标LLM生成一定量的文本数据。2) 领域分类:使用领域分类器对生成的文本进行分类,得到每个文本的领域标签。3) 混淆矩阵估计:估计一个“软”混淆矩阵,描述不同领域之间的混淆关系。这个混淆矩阵的元素表示一个领域的数据被错误分类为另一个领域的概率。4) 逆问题求解:利用估计的混淆矩阵,求解一个约束逆问题,从而恢复真实的预训练数据混合比例。
关键创新:LLMSurgeon的关键创新在于将数据混合比例估计问题建模为标签偏移下的逆问题,并提出了校准“软”混淆矩阵的方法。与直接聚合分类器输出的方法相比,LLMSurgeon能够有效地纠正领域混淆带来的偏差,从而更准确地估计预训练数据混合比例。此外,LLMScan评估套件的提出,为验证数据混合比例估计方法的有效性提供了一个标准化的平台。
关键设计:LLMSurgeon的关键设计包括:1) 使用“软”混淆矩阵来描述领域之间的混淆关系,而不是使用硬分类结果。2) 使用约束逆问题求解方法,保证估计的混合比例满足一定的约束条件(例如,所有领域的比例之和为1)。3) LLMScan评估套件的设计,包括多个具有透明预训练混合的开源LLM,以及一套标准化的评估协议。
🖼️ 关键图片
📊 实验亮点
LLMSurgeon在LLMScan评估套件上取得了显著的成果,能够以高保真度恢复领域混合比例。实验结果表明,LLMSurgeon能够有效地纠正领域混淆带来的偏差,从而更准确地估计LLM的“数字DNA”。具体性能数据在论文中给出,证明了该方法的有效性和实用性。
🎯 应用场景
LLMSurgeon可用于审计和理解大型语言模型的预训练数据构成,帮助识别潜在的偏差和风险。这对于确保LLM的公平性、可靠性和安全性至关重要。此外,该方法还可以用于优化LLM的预训练数据选择,从而提高模型的性能和泛化能力。未来,该技术可能被应用于更广泛的机器学习模型,以提高模型的可解释性和可控性。
📄 摘要(原文)
The pretraining data mixture of Large Language Models (LLMs) constitutes their "digital DNA", shaping model behaviors, capabilities, and failure modes. Yet this composition is rarely disclosed, making post-hoc auditing of data combination or provenance difficult. In this work, we formalize $\textbf{Data Mixture Surgery (DMS)}$: given only generated text from a target LLM, estimate the domain-level distribution of its pretraining corpus under a predefined taxonomy. We propose $\textbf{LLMSurgeon}$, a strong framework that casts DMS as an inverse problem under the label-shift assumption. Rather than directly aggregating classifier outputs, LLMSurgeon estimates a calibrated $\textit{soft}$ confusion matrix and solves a constrained inverse problem to correct systematic domain confusion and recover the latent mixture prior. To evaluate, we introduce $\textbf{LLMScan}$, a recipe-verifiable evaluation suite built from open-source LLMs with transparent pretraining mixtures. Across LLMScan, LLMSurgeon recovers domain mixtures with high fidelity under fixed protocols. Our work presents a practical, post-hoc approach for auditing the digital DNA of foundation models without access to their training data.