DebugLM: Learning Traceable Training Data Provenance for LLMs

📄 arXiv: 2603.17884v1 📥 PDF

作者: Wenjie Jacky Mo, Qin Liu, Xiaofei Wen, Wenxuan Zhou, Zhe Zhao, Muhao Chen

分类: cs.CL

发布日期: 2026-03-18


💡 一句话要点

DebugLM:学习LLM的可追溯训练数据来源,实现行为溯源与修正。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 行为溯源 数据来源 可解释性 模型调试 测试时修正 多阶段训练 Provenance Tagging

📋 核心要点

  1. 现有LLM缺乏行为溯源能力,难以定位导致特定行为的训练数据,导致调试困难且易复发。
  2. DebugLM通过学习将模型响应与训练数据来源标签关联,实现行为到数据的可追溯性。
  3. 实验证明DebugLM能准确追踪行为来源,并在测试时进行针对性修正,同时保持模型通用性。

📝 摘要(中文)

大型语言模型(LLMs)通过多阶段流程在异构数据源上进行训练,但开发者缺乏一种有效的方法来精确定位导致特定行为的特定数据。这种可观察性的缺失使得调试只能被动地进行修补,并使得故障容易在分布偏移或后续模型更新下复发。为了解决这个限制,我们提出了DebugLM,一个使LLMs具备内置数据来源的框架,使其能够明确地将其行为的起源追溯到特定的训练数据源。具体来说,该模型学习将其响应与唯一的来源标签相关联,这些标签指示负责的数据集,从而使开发人员能够精确地识别不良行为的学习位置。在此能力的基础上,DebugLM进一步支持有针对性的测试时补救,使开发人员能够选择性地触发对指定数据源的有针对性的拒绝,而无需重新训练或修改模型参数。实验表明,DebugLM在多阶段训练流程中提供了准确的行为追踪和有效的测试时补救,同时保留了模型的一般效用。

🔬 方法详解

问题定义:大型语言模型在多阶段训练过程中,由于训练数据来源复杂,当模型出现不期望的行为时,难以确定是哪个数据集或哪些数据样本导致的。现有的调试方法通常是被动地进行修补,缺乏对问题根源的深入理解,导致问题容易复发,尤其是在模型更新或数据分布发生变化时。

核心思路:DebugLM的核心思路是让模型在训练过程中学习将其输出与特定的训练数据来源(provenance tag)相关联。这样,当模型生成某个输出时,就可以追溯到产生该输出的训练数据,从而实现行为溯源。这种方法类似于给模型赋予了一种“记忆”,使其能够记住自己是从哪里学来的。

技术框架:DebugLM的整体框架包括以下几个主要阶段:1) 数据准备阶段:为每个训练数据集分配唯一的provenance tag。2) 模型训练阶段:在训练过程中,模型不仅学习生成正确的输出,还学习将输出与对应的provenance tag相关联。这可以通过修改损失函数来实现,例如,增加一个惩罚项,鼓励模型将相似来源的数据映射到相似的输出空间。3) 行为溯源阶段:当模型生成某个输出时,可以根据其与不同provenance tag的关联程度,确定该行为的来源。4) 测试时修正阶段:如果发现某个数据来源导致了不良行为,可以在测试时选择性地拒绝来自该来源的数据,从而实现针对性的修正,而无需重新训练模型。

关键创新:DebugLM最关键的创新在于它将数据来源信息融入到模型的学习过程中,使得模型具备了内置的数据溯源能力。与现有的调试方法相比,DebugLM能够更精确地定位问题根源,并实现更有效的修正。此外,DebugLM还支持测试时修正,可以在不重新训练模型的情况下,针对特定数据来源进行干预。

关键设计:DebugLM的关键设计包括:1) Provenance Tagging:如何为每个数据集分配唯一的provenance tag,并确保这些tag能够有效地被模型学习。2) 损失函数设计:如何设计损失函数,使得模型在学习生成正确输出的同时,也能够准确地将输出与对应的provenance tag相关联。例如,可以使用对比学习的方法,鼓励来自相同来源的数据在输出空间中聚集在一起。3) 测试时修正策略:如何设计有效的测试时修正策略,以避免对模型的一般效用产生负面影响。例如,可以使用基于置信度的过滤方法,只拒绝那些模型对来源信息非常确定的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DebugLM能够在多阶段训练流程中准确地追踪模型行为的来源,并实现有效的测试时修正。具体来说,DebugLM在行为溯源任务中取得了显著的性能提升,能够以较高的准确率识别导致特定行为的训练数据来源。此外,DebugLM在测试时修正任务中也表现出色,能够在不显著降低模型通用性的前提下,有效地抑制来自特定数据来源的不良行为。

🎯 应用场景

DebugLM可应用于各种需要对LLM进行调试和优化的场景,例如内容审核、虚假信息检测、安全策略调整等。通过追踪模型行为的来源,可以更有效地识别和解决模型中的偏差、错误或安全漏洞。此外,DebugLM还可以用于评估不同数据源对模型性能的影响,从而指导数据收集和清洗工作。未来,DebugLM有望成为LLM开发和部署的重要工具。

📄 摘要(原文)

Large language models (LLMs) are trained through multi-stage pipelines over heterogeneous data sources, yet developers lack a principled way to pinpoint the specific data responsible for an observed behavior. This lack of observability reduces debugging to reactive patching and makes failures prone to recur under distribution shift or subsequent model updates. To address this limitation, we propose DebugLM, a framework that equips LLMs with built-in data provenance, enabling them to explicitly trace the origins of their behaviors to specific training data sources. Specifically, the model learns to associate its responses with unique provenance tags that indicate the responsible dataset, empowering developers to precisely identify where undesirable behaviors are learned. Building on this capability, DebugLM further supports targeted test-time remediation, enabling developers to selectively trigger targeted refusal for specified data sources without retraining or modifying model parameters. Experiments demonstrate that DebugLM provides accurate behavior tracing in multi-stage training pipelines and effective test-time remediation while preserving the general utility of the model.