Zero-Shot Detection of LLM-Generated Text using Token Cohesiveness

📄 arXiv: 2409.16914v1 📥 PDF

作者: Shixuan Ma, Quan Wang

分类: cs.CL

发布日期: 2024-09-25

备注: To appear at the main conference of EMNLP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出TOCSIN,利用token内聚性零样本检测LLM生成文本,提升检测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM生成文本检测 零样本学习 Token内聚性 自然语言处理 内容安全

📋 核心要点

  1. 现有零样本检测器在检测LLM生成文本时仍面临挑战,缺乏有效的区分性特征。
  2. TOCSIN通过引入token内聚性特征,并设计双通道检测范式,有效提升了检测性能。
  3. 实验表明,TOCSIN在多种数据集和模型上均能显著提升现有零样本检测器的性能。

📝 摘要(中文)

大型语言模型(LLM)能力的增强和广泛应用,使得自动检测LLM生成的文本变得非常重要。零样本检测器因其无需训练的特性而备受关注并取得了显著成功。本文提出了一种新的特征——token内聚性,用于零样本检测,并证明LLM生成的文本比人类撰写的文本表现出更高的token内聚性。基于此,我们设计了TOCSIN,一种通用的双通道检测范式,它使用token内聚性作为一个即插即用的模块来改进现有的零样本检测器。为了计算token内聚性,TOCSIN只需要几轮随机token删除和语义差异测量,这使得它特别适用于无法访问生成源模型的实际黑盒设置。在各种数据集、源模型和评估设置下,对四种最先进的基础检测器进行的大量实验证明了该方法的有效性和通用性。

🔬 方法详解

问题定义:论文旨在解决如何有效检测大型语言模型(LLM)生成的文本的问题。现有零样本检测器虽然避免了训练,但在区分LLM生成文本和人类撰写文本方面仍存在不足,缺乏鲁棒且有效的特征,容易受到文本内容和风格的影响。

核心思路:论文的核心思路是观察到LLM生成的文本通常具有更高的token内聚性,即相邻token之间的语义关联更强。通过衡量文本的token内聚性,可以有效区分LLM生成文本和人类撰写文本。TOCSIN利用这一特性,作为一个即插即用的模块,增强现有零样本检测器的性能。

技术框架:TOCSIN采用双通道检测范式。一个通道是现有的零样本检测器,另一个通道是token内聚性评估模块。token内聚性评估模块通过随机删除文本中的token,并计算删除前后文本的语义差异来衡量token内聚性。两个通道的输出被融合以进行最终的检测。

关键创新:论文的关键创新在于提出了token内聚性这一新的特征,并将其应用于零样本LLM生成文本检测。与现有方法相比,token内聚性更具鲁棒性,不易受到文本内容和风格的影响。此外,TOCSIN的即插即用设计使其可以方便地集成到现有的零样本检测器中。

关键设计:TOCSIN的关键设计包括:1)随机token删除策略,通过多次随机删除token来更准确地评估token内聚性;2)语义差异测量方法,使用预训练语言模型(如BERT)计算删除前后文本的语义嵌入,并通过计算嵌入之间的距离来衡量语义差异;3)双通道融合策略,将现有零样本检测器的输出和token内聚性评估模块的输出进行加权融合,以获得最终的检测结果。具体权重参数的选择需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TOCSIN能够显著提升现有零样本检测器的性能。例如,在某些数据集上,TOCSIN可以将检测准确率提高5%以上。此外,TOCSIN在不同的数据集、源模型和评估设置下均表现出良好的泛化能力,证明了其有效性和通用性。TOCSIN的即插即用特性也使其易于部署和使用。

🎯 应用场景

该研究成果可广泛应用于内容安全、信息真实性验证、学术诚信等领域。例如,可以用于检测虚假新闻、防止LLM被用于生成恶意内容、辅助评估学生论文的原创性等。随着LLM的普及,自动检测LLM生成文本的需求将日益增长,该研究具有重要的实际应用价值。

📄 摘要(原文)

The increasing capability and widespread usage of large language models (LLMs) highlight the desirability of automatic detection of LLM-generated text. Zero-shot detectors, due to their training-free nature, have received considerable attention and notable success. In this paper, we identify a new feature, token cohesiveness, that is useful for zero-shot detection, and we demonstrate that LLM-generated text tends to exhibit higher token cohesiveness than human-written text. Based on this observation, we devise TOCSIN, a generic dual-channel detection paradigm that uses token cohesiveness as a plug-and-play module to improve existing zero-shot detectors. To calculate token cohesiveness, TOCSIN only requires a few rounds of random token deletion and semantic difference measurement, making it particularly suitable for a practical black-box setting where the source model used for generation is not accessible. Extensive experiments with four state-of-the-art base detectors on various datasets, source models, and evaluation settings demonstrate the effectiveness and generality of the proposed approach. Code available at: \url{https://github.com/Shixuan-Ma/TOCSIN}.