Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities
作者: Tara Radvand, Mojtaba Abdolmaleki, Mohamed Mostagir, Ambuj Tewari
分类: stat.ML, cs.AI, cs.CL, cs.IT, cs.LG
发布日期: 2025-01-04 (更新: 2025-05-16)
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于有限样本集中不等式的零样本统计检验方法,用于检测LLM生成的文本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM文本检测 零样本学习 统计检验 有限样本集中不等式 对抗攻击 文本溯源
📋 核心要点
- 现有LLM生成文本与人类文本难以区分,且机构需防范未经授权的LLM生成内容,因此文本来源验证面临挑战。
- 论文提出基于有限样本集中不等式的零样本统计检验,区分不同LLM或已知LLM与未知来源生成的文本。
- 实验表明,该方法在白盒、黑盒及对抗攻击下均表现良好,黑盒设置下TPR达82.5%(FPR=5%)。
📝 摘要(中文)
验证内容来源对于许多组织至关重要。随着大型语言模型(LLM)生成的文本与人类生成的文本几乎无法区分,这个问题变得越来越具有挑战性。此外,许多机构使用内部LLM,并希望确保外部未经授权的LLM不会在机构内生成内容。本文旨在解决以下问题:给定一段文本,我们能否识别它是否由特定的LLM生成?我们将LLM生成的文本建模为完全依赖于历史的顺序随机过程。然后,我们设计了零样本统计检验,以(i)区分由两个不同的已知LLM集合A(未经授权)和B(内部)生成的文本,以及(ii)识别文本是由已知的LLM生成,还是由任何未知的模型(例如,人类或其他语言生成过程)生成。我们证明了测试的第一类和第二类错误随着文本长度的增加呈指数级下降。为此,我们证明了如果B生成文本,那么除了字符串长度呈指数级小的概率外,字符串在A下的对数困惑度会收敛到B和A的平均交叉熵。最后,我们使用具有白盒访问权限的LLM进行实验,以支持我们的理论结果,并根据经验检验我们的结果对黑盒设置和对抗性攻击的鲁棒性。在黑盒设置中,我们的方法在5%的固定FPR下实现了82.5%的平均TPR。在对抗性扰动下,在相同的FPR阈值下,我们的最小TPR为48.6%。这两个结果都优于所有非商业基线。项目代码、数据和在线演示见https://github.com/TaraRadvand74/llm-text-detection。
🔬 方法详解
问题定义:论文旨在解决如何判断一段文本是由哪个LLM(已知或未知)生成的。现有方法在区分LLM生成文本和人类生成文本方面面临挑战,尤其是在黑盒场景下,无法直接访问LLM的内部参数。此外,还需要考虑对抗性攻击对检测方法的影响。
核心思路:论文的核心思路是将LLM生成的文本建模为一个顺序随机过程,并利用有限样本集中不等式来推导统计检验。通过比较文本在不同LLM下的对数困惑度,可以判断文本的来源。该方法基于一个假设:如果文本是由某个LLM生成的,那么它在该LLM下的对数困惑度应该比在其他LLM下更低。
技术框架:整体框架包括以下几个步骤:1) 将LLM生成的文本建模为顺序随机过程;2) 推导基于对数困惑度的统计检验;3) 利用有限样本集中不等式来分析检验的错误率;4) 在白盒、黑盒和对抗攻击场景下进行实验验证。主要模块包括:文本预处理模块、对数困惑度计算模块、统计检验模块和错误率分析模块。
关键创新:论文的关键创新在于提出了基于有限样本集中不等式的零样本统计检验方法。该方法不需要训练数据,可以直接用于检测LLM生成的文本。此外,该方法还具有较强的鲁棒性,可以抵抗对抗性攻击。与现有方法相比,该方法更加简单、高效和通用。
关键设计:论文的关键设计包括:1) 使用对数困惑度作为区分不同LLM生成文本的指标;2) 利用有限样本集中不等式来分析检验的错误率;3) 设计了针对对抗性攻击的鲁棒性检验方法。具体的参数设置包括:文本长度、置信水平等。损失函数主要体现在统计检验的错误率控制上,目标是最小化第一类和第二类错误。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在白盒设置下具有很高的检测精度,并且在黑盒设置和对抗性攻击下也表现出较强的鲁棒性。在黑盒设置中,该方法在5%的固定FPR下实现了82.5%的平均TPR,优于所有非商业基线。在对抗性扰动下,在相同的FPR阈值下,最小TPR为48.6%。
🎯 应用场景
该研究成果可应用于教育机构、社交媒体平台、企业等,用于验证内容的来源,防止未经授权的LLM生成内容。例如,可以用于检测学生提交的论文是否由LLM生成,或者用于识别社交媒体上的虚假信息。该研究还有助于提高LLM的安全性,防止其被用于恶意目的。
📄 摘要(原文)
Verifying the provenance of content is crucial to the function of many organizations, e.g., educational institutions, social media platforms, firms, etc. This problem is becoming increasingly challenging as text generated by Large Language Models (LLMs) becomes almost indistinguishable from human-generated content. In addition, many institutions utilize in-house LLMs and want to ensure that external, non-sanctioned LLMs do not produce content within the institution. In this paper, we answer the following question: Given a piece of text, can we identify whether it was produced by a particular LLM or not? We model LLM-generated text as a sequential stochastic process with complete dependence on history. We then design zero-shot statistical tests to (i) distinguish between text generated by two different known sets of LLMs $A$ (non-sanctioned) and $B$ (in-house), and (ii) identify whether text was generated by a known LLM or generated by any unknown model, e.g., a human or some other language generation process. We prove that the type I and type II errors of our test decrease exponentially with the length of the text. For that, we show that if $B$ generates the text, then except with an exponentially small probability in string length, the log-perplexity of the string under $A$ converges to the average cross-entropy of $B$ and $A$. We then present experiments using LLMs with white-box access to support our theoretical results and empirically examine the robustness of our results to black-box settings and adversarial attacks. In the black-box setting, our method achieves an average TPR of 82.5\% at a fixed FPR of 5\%. Under adversarial perturbations, our minimum TPR is 48.6\% at the same FPR threshold. Both results outperform all non-commercial baselines. See https://github.com/TaraRadvand74/llm-text-detection for code, data, and an online demo of the project.