Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text

📄 arXiv: 2407.09364v2 📥 PDF

作者: Lucio La Cava, Davide Costa, Andrea Tagarelli

分类: cs.CL, cs.AI, cs.CY, cs.HC, physics.soc-ph

发布日期: 2024-07-12 (更新: 2025-03-17)

备注: Accepted for publication at the 27th European Conference on Artificial Intelligence (ECAI-2024), Volume 392, Pages 3179 - 3186, October 2024

DOI: 10.3233/FAIA240862


💡 一句话要点

提出WhosAI:基于对比学习的AI生成文本检测与溯源框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 作者身份归属 对比学习 三元组网络 文本嵌入

📋 核心要点

  1. 现有AI生成文本检测方法难以同时处理检测和溯源任务,且模型扩展性不足。
  2. WhosAI通过对比学习,从多个生成器学习语义相似性表示,统一解决检测和溯源问题。
  3. 实验表明,WhosAI在TuringBench基准测试中,图灵测试和作者身份归属任务上均超越现有方法。

📝 摘要(中文)

大型语言模型的快速发展模糊了人类与AI生成文本之间的界限。AI生成文本的日益普及及其检测难度给社会带来了新的挑战。本文提出了WhosAI,一个三元组网络对比学习框架,旨在预测给定文本是由人类还是AI生成,并揭示文本的作者。与现有方法不同,该框架旨在一次性地从多个生成器中学习语义相似性表示,从而平等地处理检测和溯源任务。此外,WhosAI是模型无关的,并且可以通过将新AI文本生成模型生成的实例合并到框架学习的嵌入空间中,从而扩展到新的AI文本生成模型。在包含20万篇新闻文章的TuringBench基准测试上的实验结果表明,该框架在图灵测试和作者身份归属任务中均取得了出色的结果,优于TuringBench基准排行榜中列出的所有方法。

🔬 方法详解

问题定义:论文旨在解决AI生成文本的检测与溯源问题。现有方法通常针对特定模型设计,难以泛化到新的AI生成模型,并且通常将检测和溯源作为独立任务处理,缺乏统一的框架。此外,现有方法在处理多作者溯源问题时性能可能下降。

核心思路:论文的核心思路是利用对比学习,学习文本的语义嵌入表示,使得同一作者(包括人类作者和AI模型)生成的文本在嵌入空间中更接近,不同作者生成的文本更远离。通过这种方式,可以同时进行AI生成文本的检测(区分人类和AI)和溯源(确定具体作者)。

技术框架:WhosAI采用三元组网络结构。该网络包含三个分支,分别输入anchor文本、正样本(与anchor文本同作者的文本)和负样本(与anchor文本不同作者的文本)。每个分支使用相同的文本编码器(例如,预训练的Transformer模型)将输入文本转换为嵌入向量。然后,通过对比损失函数,优化嵌入空间,使得anchor文本与正样本的距离小于anchor文本与负样本的距离。

关键创新:WhosAI的关键创新在于其统一的对比学习框架,可以同时处理AI生成文本的检测和溯源任务。此外,该框架是模型无关的,可以通过简单地将新模型的生成文本添加到训练数据中来适应新的AI生成模型。这种方法避免了为每个新模型重新训练检测器的需要,提高了可扩展性。

关键设计:WhosAI使用三元组损失函数来优化嵌入空间。损失函数的目标是最小化anchor文本与正样本之间的距离,同时最大化anchor文本与负样本之间的距离。具体的损失函数形式可以是hinge loss或triplet margin loss。此外,论文可能还探索了不同的文本编码器架构和训练策略,例如,使用不同的预训练模型或采用不同的负样本采样方法。

📊 实验亮点

WhosAI在TuringBench基准测试中取得了显著成果,在图灵测试和作者身份归属任务中均超越了现有方法。具体而言,WhosAI在图灵测试中取得了超过现有最佳方法的性能提升,并在作者身份归属任务中实现了更高的准确率。这些结果表明,WhosAI在AI生成文本检测和溯源方面具有强大的能力。

🎯 应用场景

WhosAI可应用于内容审核、学术诚信检测、新闻真实性验证等领域。它可以帮助识别和标记AI生成的虚假信息,防止其被用于恶意目的。此外,该技术还可以用于保护知识产权,防止AI生成的内容侵犯版权。

📄 摘要(原文)

The significant progress in the development of Large Language Models has contributed to blurring the distinction between human and AI-generated text. The increasing pervasiveness of AI-generated text and the difficulty in detecting it poses new challenges for our society. In this paper, we tackle the problem of detecting and attributing AI-generated text by proposing WhosAI, a triplet-network contrastive learning framework designed to predict whether a given input text has been generated by humans or AI and to unveil the authorship of the text. Unlike most existing approaches, our proposed framework is conceived to learn semantic similarity representations from multiple generators at once, thus equally handling both detection and attribution tasks. Furthermore, WhosAI is model-agnostic and scalable to the release of new AI text-generation models by incorporating their generated instances into the embedding space learned by our framework. Experimental results on the TuringBench benchmark of 200K news articles show that our proposed framework achieves outstanding results in both the Turing Test and Authorship Attribution tasks, outperforming all the methods listed in the TuringBench benchmark leaderboards.