Auditing Training Data in Domain-adapted LLMs: LoRA-MINT

📄 arXiv: 2606.06946v1 📥 PDF

作者: Gonzalo Mancera, Daniel DeAlcala, Aythami Morales, Julian Fierrez, Ruben Tolosana, Francisco Jurado

分类: cs.CL, cs.AI

发布日期: 2026-06-05

备注: IEEE Conf. on Computers, Software, and Applications (COMPSAC), 2026


💡 一句话要点

提出LoRA-MINT以解决LLMs训练数据审计问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 训练数据审计 成员推断 低秩适应 自然语言处理 知识产权管理 数据暴露评估

📋 核心要点

  1. 现有方法在审计微调后的大型语言模型训练数据时存在准确性不足和透明度低的问题。
  2. LoRA-MINT通过分析模型困惑度与样本成员状态的关系,提供了一种系统的审计框架。
  3. 实验结果显示,LoRA-MINT在确定训练数据的准确率上达到0.77至0.92,超越了现有基线,展现出良好的鲁棒性。

📝 摘要(中文)

我们提出了LoRA-MINT,这是一种针对最近经过低秩适应(LoRA)微调的大型语言模型(LLMs)的成员推断测试(MINT)新方法。其主要目标是评估个别样本是否为这些适应模型的训练数据的一部分,提供了一种有用的审计工具,以管理知识产权和敏感数据。我们的分析探讨了模型困惑度与成员状态之间的关系,提供了一个系统框架来估计微调LLMs中的数据暴露。我们在四个模型和三个基准数据集上进行了实验,确定给定数据是否用于训练的精度值范围为0.77到0.92,超越了现有的最先进基线,展示了该方法的鲁棒性和普适性。总体而言,我们的研究结果强调了LoRA-MINT作为审计LLMs的有效且可扩展框架的潜力,提升了透明度,促进了人工智能和自然语言处理技术的伦理和负责任的部署。

🔬 方法详解

问题定义:论文要解决的问题是如何有效审计经过微调的大型语言模型的训练数据,现有方法在准确性和透明度方面存在不足,难以评估数据的暴露情况。

核心思路:论文提出的核心思路是利用模型的困惑度来推断样本是否为训练数据的一部分,从而构建一个系统的审计工具。这样的设计能够有效评估数据的使用情况,提升审计的可靠性。

技术框架:整体架构包括数据预处理、模型训练、困惑度计算和成员推断四个主要模块。首先对数据进行预处理,然后对LLMs进行微调,接着计算模型的困惑度,最后通过设定的阈值进行成员推断。

关键创新:最重要的技术创新点在于将困惑度与成员推断结合,形成了一个新的审计框架。这一方法与现有的基于模型输出的审计方法本质上不同,提供了更为系统和有效的解决方案。

关键设计:在关键设计上,论文详细描述了困惑度的计算方法、成员推断的阈值设定,以及在不同模型和数据集上的实验设置,确保了方法的适用性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LoRA-MINT在判断训练数据的准确率上达到了0.77至0.92,显著优于现有的最先进基线,证明了该方法的鲁棒性和普适性,为LLMs的审计提供了新的可能性。

🎯 应用场景

该研究的潜在应用领域包括知识产权管理、敏感数据保护以及AI和NLP技术的伦理审计。LoRA-MINT能够帮助企业和研究机构更好地管理和审计其训练数据,确保合规性和透明度,促进负责任的AI部署。

📄 摘要(原文)

We present LoRA-MINT, a new methodology for Membership Inference Test (MINT) applied to recent Large Language Models (LLMs) fine-tuned for specific Natural Language Processing (NLP) tasks through Low-Rank Adaptation (LoRA). The primary goal is to assess whether individual samples were part of the training data of these adapted models, providing a useful auditing tool for the management of intellectual property and sensitive data. Our analysis explores the relationship between model perplexity and membership status, providing a systematic framework for estimating data exposure in fine-tuned LLMs. We conducted experiments on four models and three benchmark datasets, obtaining precision values in determining if given data were used for training ranging from 0.77 to 0.92, which outperform state-of-the-art baselines and demonstrate the robustness and generality of the proposed method. In general, our findings underscore the potential of LoRA-MINT as an effective and scalable framework for auditing LLMs, improving transparency, and fostering the ethical and responsible deployment of AI and NLP technologies. For the sake of concreteness and current relevance, our discussion and experiments are centered on LoRAadjusted LLMs, but note that most of the presented methodology is easily applicable for auditing training data given any other technique for adapting LLMs or, more generally, any other domain-adapted AI models.