Tracing Thought: Using Chain-of-Thought Reasoning to Identify the LLM Behind AI-Generated Text

作者: Shifali Agrahari, Sanasam Ranbir Singh

分类: cs.CL, cs.AI

发布日期: 2025-04-23

备注: De-Factify 4: 4th Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI 2025. Pennsylvania

💡 一句话要点

提出COT Fine-tuned框架，用于检测AI生成文本并识别生成模型的LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 思维链推理 LLM识别 可解释性AI 双任务学习

📋 核心要点

当前AI生成文本检测面临挑战，尤其在识别生成模型的任务上，缺乏有效方法。
COT Fine-tuned通过引入思维链推理，使模型能够解释其预测，提升透明性和可解释性。
实验结果表明，该方法在AI生成文本检测和LLM识别任务上均表现出高准确率。

📝 摘要（中文）

本文提出了一种名为COT Fine-tuned的新框架，用于检测AI生成的文本并识别生成文本的特定语言模型。由于学术诚信、错误信息和AI伦理部署等问题日益突出，AI生成文本的检测已成为一个关键的研究领域。该框架采用双任务方法，任务A是将文本分类为AI生成或人工撰写，任务B是识别生成文本的特定LLM。该方法的核心创新在于使用思维链（Chain-of-Thought, CoT）推理，使模型能够为其预测生成解释，从而增强透明性和可解释性。实验表明，COT Fine-tuned在两个任务中都取得了很高的准确率，在LLM识别和人机分类方面表现出色。同时证明了CoT推理过程对模型的有效性和可解释性有显著贡献。

🔬 方法详解

问题定义：论文旨在解决AI生成文本的检测与溯源问题，即判断一段文本是否由AI生成，如果是，则进一步确定是哪个LLM生成的。现有方法在准确性和可解释性方面存在不足，难以有效应对日益复杂的AI生成文本。

核心思路：论文的核心思路是利用思维链（Chain-of-Thought, CoT）推理来增强模型的可解释性和准确性。通过让模型在做出预测之前生成解释，可以模拟人类的思考过程，从而提高模型对AI生成文本的识别能力。

技术框架：COT Fine-tuned框架采用双任务学习方法。任务A负责将文本分类为人为生成或AI生成，任务B负责识别生成文本的特定LLM。模型首先对输入文本进行编码，然后利用CoT机制生成解释，最后基于解释和编码后的文本进行分类和识别。整个框架通过联合训练进行优化。

关键创新：该方法最重要的创新在于引入了CoT推理机制，使得模型不仅能够进行分类和识别，还能提供预测的理由，从而增强了模型的可解释性。与传统方法相比，CoT推理能够帮助模型更好地理解文本的语义和生成模式，从而提高检测和识别的准确率。

关键设计：模型使用预训练语言模型（如BERT或RoBERTa）作为编码器。CoT模块可以使用Transformer结构实现，用于生成解释。损失函数包括分类损失和识别损失，通过加权求和进行优化。具体的参数设置和网络结构需要根据具体的实验数据进行调整。

🖼️ 关键图片

📊 实验亮点

COT Fine-tuned在AI生成文本检测和LLM识别任务上均取得了显著的性能提升。实验结果表明，该方法能够有效区分AI生成文本和人工撰写文本，并准确识别生成文本的LLM。CoT推理过程显著提高了模型的可解释性，为AI生成内容检测提供了新的思路。

🎯 应用场景

该研究成果可应用于学术诚信检测、虚假信息识别、内容安全管理等领域。通过准确识别AI生成文本，有助于维护网络信息秩序，防范AI滥用风险，并为AI内容治理提供技术支持。未来，该技术可进一步扩展到其他模态的内容检测，如图像、音频和视频。

📄 摘要（原文）

In recent years, the detection of AI-generated text has become a critical area of research due to concerns about academic integrity, misinformation, and ethical AI deployment. This paper presents COT Fine-tuned, a novel framework for detecting AI-generated text and identifying the specific language model. responsible for generating the text. We propose a dual-task approach, where Task A involves classifying text as AI-generated or human-written, and Task B identifies the specific LLM behind the text. The key innovation of our method lies in the use of Chain-of-Thought reasoning, which enables the model to generate explanations for its predictions, enhancing transparency and interpretability. Our experiments demonstrate that COT Fine-tuned achieves high accuracy in both tasks, with strong performance in LLM identification and human-AI classification. We also show that the CoT reasoning process contributes significantly to the models effectiveness and interpretability.

Tracing Thought: Using Chain-of-Thought Reasoning to Identify the LLM Behind AI-Generated Text

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理