Tracing Thought: Using Chain-of-Thought Reasoning to Identify the LLM Behind AI-Generated Text

📄 arXiv: 2504.16913v1 📥 PDF

作者: Shifali Agrahari, Sanasam Ranbir Singh

分类: cs.CL, cs.AI

发布日期: 2025-04-23

备注: De-Factify 4: 4th Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI 2025. Pennsylvania


💡 一句话要点

提出COT Fine-tuned框架,用于检测AI生成文本并识别生成模型的LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 思维链推理 LLM识别 可解释性AI 双任务学习

📋 核心要点

  1. 当前AI生成文本检测面临挑战,尤其在识别生成模型的任务上,缺乏有效方法。
  2. COT Fine-tuned通过引入思维链推理,使模型能够解释其预测,提升透明性和可解释性。
  3. 实验结果表明,该方法在AI生成文本检测和LLM识别任务上均表现出高准确率。

📝 摘要(中文)

本文提出了一种名为COT Fine-tuned的新框架,用于检测AI生成的文本并识别生成文本的特定语言模型。由于学术诚信、错误信息和AI伦理部署等问题日益突出,AI生成文本的检测已成为一个关键的研究领域。该框架采用双任务方法,任务A是将文本分类为AI生成或人工撰写,任务B是识别生成文本的特定LLM。该方法的核心创新在于使用思维链(Chain-of-Thought, CoT)推理,使模型能够为其预测生成解释,从而增强透明性和可解释性。实验表明,COT Fine-tuned在两个任务中都取得了很高的准确率,在LLM识别和人机分类方面表现出色。同时证明了CoT推理过程对模型的有效性和可解释性有显著贡献。

🔬 方法详解

问题定义:论文旨在解决AI生成文本的检测与溯源问题,即判断一段文本是否由AI生成,如果是,则进一步确定是哪个LLM生成的。现有方法在准确性和可解释性方面存在不足,难以有效应对日益复杂的AI生成文本。

核心思路:论文的核心思路是利用思维链(Chain-of-Thought, CoT)推理来增强模型的可解释性和准确性。通过让模型在做出预测之前生成解释,可以模拟人类的思考过程,从而提高模型对AI生成文本的识别能力。

技术框架:COT Fine-tuned框架采用双任务学习方法。任务A负责将文本分类为人为生成或AI生成,任务B负责识别生成文本的特定LLM。模型首先对输入文本进行编码,然后利用CoT机制生成解释,最后基于解释和编码后的文本进行分类和识别。整个框架通过联合训练进行优化。

关键创新:该方法最重要的创新在于引入了CoT推理机制,使得模型不仅能够进行分类和识别,还能提供预测的理由,从而增强了模型的可解释性。与传统方法相比,CoT推理能够帮助模型更好地理解文本的语义和生成模式,从而提高检测和识别的准确率。

关键设计:模型使用预训练语言模型(如BERT或RoBERTa)作为编码器。CoT模块可以使用Transformer结构实现,用于生成解释。损失函数包括分类损失和识别损失,通过加权求和进行优化。具体的参数设置和网络结构需要根据具体的实验数据进行调整。

🖼️ 关键图片

fig_0

📊 实验亮点

COT Fine-tuned在AI生成文本检测和LLM识别任务上均取得了显著的性能提升。实验结果表明,该方法能够有效区分AI生成文本和人工撰写文本,并准确识别生成文本的LLM。CoT推理过程显著提高了模型的可解释性,为AI生成内容检测提供了新的思路。

🎯 应用场景

该研究成果可应用于学术诚信检测、虚假信息识别、内容安全管理等领域。通过准确识别AI生成文本,有助于维护网络信息秩序,防范AI滥用风险,并为AI内容治理提供技术支持。未来,该技术可进一步扩展到其他模态的内容检测,如图像、音频和视频。

📄 摘要(原文)

In recent years, the detection of AI-generated text has become a critical area of research due to concerns about academic integrity, misinformation, and ethical AI deployment. This paper presents COT Fine-tuned, a novel framework for detecting AI-generated text and identifying the specific language model. responsible for generating the text. We propose a dual-task approach, where Task A involves classifying text as AI-generated or human-written, and Task B identifies the specific LLM behind the text. The key innovation of our method lies in the use of Chain-of-Thought reasoning, which enables the model to generate explanations for its predictions, enhancing transparency and interpretability. Our experiments demonstrate that COT Fine-tuned achieves high accuracy in both tasks, with strong performance in LLM identification and human-AI classification. We also show that the CoT reasoning process contributes significantly to the models effectiveness and interpretability.