Tracing the Data Trail: A Survey of Data Provenance, Transparency and Traceability in LLMs

📄 arXiv: 2601.14311v1 📥 PDF

作者: Richard Hohensinner, Belgin Mutlu, Inti Gabriel Mendoza Estrada, Matej Vukovic, Simone Kopeinik, Roman Kern

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-01-19

备注: 35 pages, 6 figures. Manuscript submitted to ACM Computing Surveys (CSUR) on the 12th of December 2025


💡 一句话要点

综述LLM数据溯源、透明性和可追溯性,填补训练数据生命周期不透明的空白。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据溯源 透明性 可追溯性 数据隐私 偏差测量 数据治理

📋 核心要点

  1. 大型语言模型训练数据生命周期不透明,缺乏对数据来源、处理过程和潜在偏差的有效追踪。
  2. 该综述从数据溯源、透明性和可追溯性三个维度,结合偏差、隐私和工具技术,系统地分析了LLM的数据生命周期。
  3. 通过对95篇相关文献的分析,总结了数据生成、水印技术、偏差测量等关键方法,并提出了领域分类体系。

📝 摘要(中文)

大规模语言模型(LLMs)已被广泛部署,但其训练数据的生命周期仍然不透明。本综述整合了过去十年关于三个紧密耦合的轴线的研究:(1)数据溯源,(2)透明性,和(3)可追溯性,以及三个支持支柱:(4)偏差与不确定性,(5)数据隐私,和(6)实现它们所需的工具和技术。一个核心贡献是提出了一个分类法,定义了该领域的领域并列出了相应的工件。通过分析95篇出版物,这项工作确定了关于数据生成、水印、偏差测量、数据管理、数据隐私以及透明性和不透明性之间固有权衡的关键方法。

🔬 方法详解

问题定义:当前大型语言模型(LLMs)的训练数据生命周期存在严重的不透明性。这意味着我们很难追踪数据的来源、数据在训练过程中经历的各种处理步骤,以及数据中可能存在的偏差。这种不透明性使得我们难以理解和控制LLMs的行为,也给数据隐私和安全带来了潜在风险。现有方法缺乏对数据溯源、透明性和可追溯性的系统性研究和有效工具。

核心思路:该综述的核心思路是将LLM的训练数据生命周期分解为三个关键维度:数据溯源、透明性和可追溯性。数据溯源关注数据的来源和历史,透明性关注数据处理过程的可理解性,可追溯性关注数据在整个生命周期中的流动路径。通过对这三个维度进行深入分析,可以更好地理解和控制LLMs的行为。

技术框架:该综述构建了一个包含三个轴线和三个支柱的框架。三个轴线是:数据溯源、透明性和可追溯性。三个支柱是:偏差与不确定性、数据隐私以及工具和技术。通过对这三个轴线和三个支柱的综合分析,可以全面地了解LLM的数据生命周期。该综述还提出了一个分类法,用于定义该领域的各个领域并列出相应的工件。

关键创新:该综述的关键创新在于它提供了一个系统性的框架,用于分析LLM的数据生命周期。它将数据溯源、透明性和可追溯性作为三个关键维度,并结合偏差、隐私和工具技术进行综合分析。此外,该综述还提出了一个分类法,用于定义该领域的各个领域并列出相应的工件。这为未来的研究提供了一个有用的参考。

关键设计:该综述并没有提出新的算法或模型,而是侧重于对现有研究进行整理和分析。它通过对95篇相关文献的分析,总结了数据生成、水印技术、偏差测量等关键方法,并识别了透明性和不透明性之间的权衡。具体的技术细节散布在所分析的论文中,例如,不同的水印算法、偏差测量指标和数据隐私保护技术。

📊 实验亮点

该综述分析了95篇相关文献,总结了数据生成、水印技术、偏差测量等关键方法,并提出了领域分类体系。它强调了透明性和不透明性之间的权衡,并指出了数据隐私保护的重要性。虽然没有提供具体的性能数据,但该综述为未来的研究提供了一个有价值的框架。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性、可靠性和可信度。通过增强数据溯源能力,可以追踪模型偏差的来源,从而改进数据清洗和模型训练过程。提高透明性有助于理解模型的决策过程,增强用户信任。可追溯性则有助于审计和合规性,确保模型符合伦理和法律规范。这些改进将促进LLM在金融、医疗等敏感领域的应用。

📄 摘要(原文)

Large language models (LLMs) are deployed at scale, yet their training data life cycle remains opaque. This survey synthesizes research from the past ten years on three tightly coupled axes: (1) data provenance, (2) transparency, and (3) traceability, and three supporting pillars: (4) bias \& uncertainty, (5) data privacy, and (6) tools and techniques that operationalize them. A central contribution is a proposed taxonomy defining the field's domains and listing corresponding artifacts. Through analysis of 95 publications, this work identifies key methodologies concerning data generation, watermarking, bias measurement, data curation, data privacy, and the inherent trade-off between transparency and opacity.