Real, Fake, or Manipulated? Detecting Machine-Influenced Text
作者: Yitong Wang, Zhongping Zhang, Margherita Piana, Zheng Zhou, Peter Gerstoft, Bryan A. Plummer
分类: cs.CL
发布日期: 2025-09-18
备注: Accepted to EMNLP 2025 Findings
💡 一句话要点
提出HERO模型,用于区分人类撰写、机器生成、机器润色和机器翻译的文本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器生成文本检测 大型语言模型 文本分类 子类别指导 长度鲁棒性
📋 核心要点
- 现有机器生成文本检测方法忽略了LLM的细粒度使用场景,如机器润色和翻译,导致检测精度不足。
- HERO模型通过分层结构和长度专家模型,结合子类别指导,能够有效区分四种类型的文本。
- 实验结果表明,HERO在多个LLM和领域上显著优于现有方法,平均mAP提升2.5-3。
📝 摘要(中文)
大型语言模型(LLM)可以用于撰写或修改文档,这给理解其使用意图带来了挑战。例如,良性使用可能包括使用LLM改进人工撰写文档的语法或将其翻译成另一种语言。然而,完全由LLM生成的文档可能比简单的翻译更可能被用于传播错误信息(例如,被恶意行为者使用或仅仅是产生幻觉)。先前在机器生成文本(MGT)检测方面的工作主要集中于简单地识别文档是人工还是机器编写的,忽略了这些细粒度的使用情况。在本文中,我们介绍了一种分层的、长度鲁棒的机器影响文本检测器(HERO),它学习区分来自四种主要类型的不同长度的文本样本:人工撰写、机器生成、机器润色和机器翻译。HERO通过结合长度专家模型的预测来实现这一点,这些模型已经使用子类别指导进行训练。具体来说,对于容易混淆的类别(例如,不同的源语言),我们的子类别指导模块鼓励细粒度类别的分离,从而提高性能。在五个LLM和六个领域进行的广泛实验证明了我们的HERO的优势,平均优于最先进水平2.5-3 mAP。
🔬 方法详解
问题定义:论文旨在解决区分人类撰写、机器生成、机器润色和机器翻译文本的问题。现有方法主要集中于区分人类撰写和机器生成文本,忽略了机器润色和机器翻译等细粒度场景,导致检测精度下降,无法满足实际应用需求。
核心思路:论文的核心思路是构建一个分层的、长度鲁棒的检测器,利用长度专家模型处理不同长度的文本,并通过子类别指导模块区分容易混淆的类别,从而提高检测精度。这种方法能够更好地捕捉不同类型文本的特征,并有效区分相似的文本类型。
技术框架:HERO模型包含以下主要模块:1) 长度专家模型:针对不同长度的文本训练多个专家模型,每个模型专注于特定长度范围的文本。2) 分层结构:将文本分为四个主要类别(人类撰写、机器生成、机器润色和机器翻译),并在每个类别下进一步细分子类别(例如,不同的源语言)。3) 子类别指导模块:通过引入额外的损失函数,鼓励模型区分容易混淆的子类别,从而提高整体检测精度。4) 预测融合:将各个长度专家模型的预测结果进行融合,得到最终的分类结果。
关键创新:HERO的关键创新在于:1) 提出了一个分层的、长度鲁棒的检测框架,能够有效处理不同长度的文本。2) 引入了子类别指导模块,能够区分容易混淆的类别,显著提高了检测精度。3) 结合了长度专家模型和分层结构,能够更好地捕捉不同类型文本的特征。
关键设计:子类别指导模块通过引入额外的交叉熵损失函数来实现,该损失函数鼓励模型区分容易混淆的子类别。具体来说,对于每个文本样本,模型不仅预测其所属的主要类别,还预测其所属的子类别。然后,将主要类别和子类别的预测结果结合起来,计算总的损失函数。长度专家模型采用Transformer架构,并针对不同长度的文本进行微调。模型使用Adam优化器进行训练,学习率设置为1e-5,batch size设置为32。
📊 实验亮点
实验结果表明,HERO模型在五个LLM(包括GPT-2、GPT-3等)和六个领域上显著优于现有最先进方法,平均mAP提升2.5-3。特别是在区分机器润色和机器翻译文本方面,HERO的性能提升更为明显,证明了其在细粒度文本检测方面的优势。
🎯 应用场景
该研究成果可应用于内容审核、虚假信息检测、学术诚信评估等领域。通过准确识别机器影响的文本,可以有效防止恶意行为者利用LLM传播虚假信息,维护网络空间的健康和安全。此外,该技术还可以用于评估学生论文的原创性,防止学术不端行为。
📄 摘要(原文)
Large Language Model (LLMs) can be used to write or modify documents, presenting a challenge for understanding the intent behind their use. For example, benign uses may involve using LLM on a human-written document to improve its grammar or to translate it into another language. However, a document entirely produced by a LLM may be more likely to be used to spread misinformation than simple translation (\eg, from use by malicious actors or simply by hallucinating). Prior works in Machine Generated Text (MGT) detection mostly focus on simply identifying whether a document was human or machine written, ignoring these fine-grained uses. In this paper, we introduce a HiErarchical, length-RObust machine-influenced text detector (HERO), which learns to separate text samples of varying lengths from four primary types: human-written, machine-generated, machine-polished, and machine-translated. HERO accomplishes this by combining predictions from length-specialist models that have been trained with Subcategory Guidance. Specifically, for categories that are easily confused (\eg, different source languages), our Subcategory Guidance module encourages separation of the fine-grained categories, boosting performance. Extensive experiments across five LLMs and six domains demonstrate the benefits of our HERO, outperforming the state-of-the-art by 2.5-3 mAP on average.