Model Attribution in LLM-Generated Disinformation: A Domain Generalization Approach with Supervised Contrastive Learning
作者: Alimohammad Beigi, Zhen Tan, Nivedh Mudiam, Canyu Chen, Kai Shu, Huan Liu
分类: cs.CL
发布日期: 2024-07-31 (更新: 2024-08-14)
备注: 10 pages, 2 figures, accepted at DSAA 2024
💡 一句话要点
提出基于监督对比学习的领域泛化方法,用于LLM生成虚假信息的模型溯源。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM溯源 虚假信息检测 领域泛化 监督对比学习 提示工程 模型归因 自然语言处理
📋 核心要点
- 现有LLM生成虚假信息质量高,且提示方法多样,导致模型溯源任务面临巨大挑战,现有方法难以有效应对。
- 论文将模型溯源视为领域泛化问题,通过监督对比学习,使模型学习领域不变特征,从而提升对不同提示方法的鲁棒性。
- 实验结果表明,该方法在多种提示方法和LLM上均取得了优异的溯源性能,显著优于现有技术水平。
📝 摘要(中文)
针对大型语言模型(LLM)生成虚假信息的模型溯源问题,本文提出了一种基于监督对比学习的领域泛化方法。该方法将不同的提示方法视为不同的领域,旨在学习与领域无关的特征,从而提高模型溯源的准确性和鲁棒性。通过监督对比学习,模型能够更好地区分不同来源的LLM,并对提示方法的变化具有更强的适应性。实验结果表明,该方法在三种常见的提示方法(开放式、改写和释义)和三种先进的LLM(llama 2、chatgpt和vicuna)上取得了最先进的性能,证明了其在各种未见数据集上的有效性。
🔬 方法详解
问题定义:论文旨在解决LLM生成虚假信息的来源溯源问题。现有方法在面对多样化的提示方法时,性能显著下降,因为不同的提示方法引入了领域特定的特征,掩盖了LLM本身的特征。因此,如何消除提示方法的影响,提取LLM的本质特征,是解决该问题的关键。
核心思路:论文的核心思路是将模型溯源问题转化为一个领域泛化问题,其中每种提示方法代表一个不同的领域。通过学习领域不变的特征表示,模型可以更好地泛化到未见过的提示方法上。监督对比学习被用于拉近同一LLM生成的样本在特征空间中的距离,同时推远不同LLM生成的样本的距离,从而提高溯源的准确性。
技术框架:整体框架包含一个文本编码器和一个分类器。文本编码器负责将LLM生成的文本转换为特征向量,分类器则根据特征向量判断文本的来源LLM。监督对比学习在训练阶段被用于优化文本编码器,使其能够提取领域不变的特征。具体流程是:首先,使用不同的提示方法生成来自不同LLM的文本;然后,将这些文本输入文本编码器,得到特征向量;接着,使用监督对比损失函数优化文本编码器,使其能够区分不同来源的LLM;最后,使用训练好的文本编码器提取特征,训练分类器进行模型溯源。
关键创新:最重要的技术创新点在于将模型溯源问题建模为领域泛化问题,并引入监督对比学习来学习领域不变的特征表示。与现有方法相比,该方法能够更好地应对提示方法的多样性,提高模型溯源的鲁棒性和泛化能力。
关键设计:论文使用了预训练的语言模型作为文本编码器的初始化,例如BERT或RoBERTa。监督对比损失函数的设计至关重要,它需要能够有效地拉近同一LLM生成的样本的距离,同时推远不同LLM生成的样本的距离。具体而言,可以使用InfoNCE损失函数,并调整温度参数以控制对比学习的强度。此外,还可以探索不同的数据增强方法,以进一步提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在三种常见的提示方法(开放式、改写和释义)和三种先进的LLM(llama 2、chatgpt和vicuna)上取得了最先进的性能。具体而言,该方法在未见过的提示方法上的溯源准确率显著高于现有方法,证明了其良好的泛化能力。
🎯 应用场景
该研究成果可应用于检测和溯源LLM生成的虚假信息,帮助识别恶意内容制造者,从而减轻虚假信息传播带来的负面影响。此外,该技术还可用于评估不同LLM的安全性和可靠性,为LLM的开发和部署提供参考。
📄 摘要(原文)
Model attribution for LLM-generated disinformation poses a significant challenge in understanding its origins and mitigating its spread. This task is especially challenging because modern large language models (LLMs) produce disinformation with human-like quality. Additionally, the diversity in prompting methods used to generate disinformation complicates accurate source attribution. These methods introduce domain-specific features that can mask the fundamental characteristics of the models. In this paper, we introduce the concept of model attribution as a domain generalization problem, where each prompting method represents a unique domain. We argue that an effective attribution model must be invariant to these domain-specific features. It should also be proficient in identifying the originating models across all scenarios, reflecting real-world detection challenges. To address this, we introduce a novel approach based on Supervised Contrastive Learning. This method is designed to enhance the model's robustness to variations in prompts and focuses on distinguishing between different source LLMs. We evaluate our model through rigorous experiments involving three common prompting methods:
open-ended'',rewriting'', andparaphrasing'', and three advanced LLMs:llama 2'',chatgpt'', andvicuna''. Our results demonstrate the effectiveness of our approach in model attribution tasks, achieving state-of-the-art performance across diverse and unseen datasets.