Real, Fake, or Manipulated? Detecting Machine-Influenced Text

📄 arXiv: 2509.15350v1 📥 PDF

作者: Yitong Wang, Zhongping Zhang, Margherita Piana, Zheng Zhou, Peter Gerstoft, Bryan A. Plummer

分类: cs.CL

发布日期: 2025-09-18

备注: Accepted to EMNLP 2025 Findings


💡 一句话要点

提出HERO模型,用于区分人类撰写、机器生成、机器润色和机器翻译的文本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器生成文本检测 自然语言处理 深度学习 分层模型 子类别指导

📋 核心要点

  1. 现有机器生成文本检测方法忽略了文本生成方式的细粒度差异,无法区分机器润色、翻译等情况。
  2. HERO模型通过分层结构和子类别指导,学习区分人类撰写、机器生成、机器润色和机器翻译的文本。
  3. 实验表明,HERO在多个LLM和领域上优于现有方法,平均mAP提升2.5-3。

📝 摘要(中文)

大型语言模型(LLMs)可以用于撰写或修改文档,这给理解其使用意图带来了挑战。例如,良性使用可能包括使用LLM改进人工撰写文档的语法或将其翻译成另一种语言。然而,完全由LLM生成的文档可能比简单的翻译更可能被用于传播错误信息(例如,被恶意行为者使用或仅仅是产生幻觉)。机器生成文本(MGT)检测的先前工作主要集中于简单地识别文档是人工还是机器编写的,忽略了这些细粒度的使用情况。在本文中,我们介绍了一种分层的、长度鲁棒的机器影响文本检测器(HERO),它学习区分来自四种主要类型的不同长度的文本样本:人工撰写、机器生成、机器润色和机器翻译。HERO通过结合长度专家模型的预测来实现这一点,这些模型已经通过子类别指导进行训练。具体来说,对于容易混淆的类别(例如,不同的源语言),我们的子类别指导模块鼓励细粒度类别的分离,从而提高性能。在五个LLM和六个领域进行的广泛实验证明了我们的HERO的优势,平均优于最先进水平2.5-3 mAP。

🔬 方法详解

问题定义:论文旨在解决区分机器影响文本的细粒度类别问题,即区分人工撰写、机器生成、机器润色和机器翻译的文本。现有方法主要集中于区分人工撰写和机器生成文本,忽略了机器润色和机器翻译等中间状态,无法满足实际应用需求。这些中间状态的文本可能具有不同的意图和风险,例如,机器润色可能只是为了提高语法质量,而机器生成的文本可能被用于传播虚假信息。

核心思路:论文的核心思路是利用分层结构和子类别指导来提高区分机器影响文本的细粒度类别的能力。分层结构允许模型学习不同长度文本的特征,而子类别指导则鼓励模型区分容易混淆的类别,例如不同源语言的机器翻译文本。通过这种方式,模型可以更准确地识别文本的生成方式。

技术框架:HERO模型包含以下主要模块:1) 长度专家模型:针对不同长度的文本训练多个专家模型,每个模型专注于特定长度范围的文本特征学习。2) 分层结构:将长度专家模型的预测结果进行融合,形成最终的预测结果。3) 子类别指导模块:对于容易混淆的类别,引入子类别信息,例如源语言,指导模型进行更细粒度的区分。

关键创新:HERO的关键创新在于:1) 提出了分层结构,可以有效处理不同长度的文本。2) 引入了子类别指导模块,可以提高区分容易混淆类别的能力。3) 针对机器影响文本的细粒度分类问题,提出了新的解决方案。

关键设计:HERO的关键设计包括:1) 长度专家模型的选择:选择合适的模型结构和训练数据,以保证每个专家模型能够有效学习特定长度范围的文本特征。2) 子类别指导模块的实现:设计合适的损失函数,鼓励模型区分不同的子类别。3) 分层结构的融合方式:选择合适的融合策略,例如加权平均或学习权重,以保证最终预测结果的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HERO模型在五个LLM和六个领域上优于现有最先进方法,平均mAP提升2.5-3。特别是在区分机器润色和机器翻译文本方面,HERO表现出显著的优势。实验还验证了子类别指导模块的有效性,证明其可以提高区分容易混淆类别的能力。

🎯 应用场景

该研究成果可应用于内容审核、虚假信息检测、版权保护等领域。通过准确识别文本的生成方式,可以帮助识别潜在的恶意内容,保护知识产权,并提高信息的可信度。未来,该技术可以进一步应用于自动化新闻写作、机器辅助翻译等领域,提高工作效率和内容质量。

📄 摘要(原文)

Large Language Model (LLMs) can be used to write or modify documents, presenting a challenge for understanding the intent behind their use. For example, benign uses may involve using LLM on a human-written document to improve its grammar or to translate it into another language. However, a document entirely produced by a LLM may be more likely to be used to spread misinformation than simple translation (\eg, from use by malicious actors or simply by hallucinating). Prior works in Machine Generated Text (MGT) detection mostly focus on simply identifying whether a document was human or machine written, ignoring these fine-grained uses. In this paper, we introduce a HiErarchical, length-RObust machine-influenced text detector (HERO), which learns to separate text samples of varying lengths from four primary types: human-written, machine-generated, machine-polished, and machine-translated. HERO accomplishes this by combining predictions from length-specialist models that have been trained with Subcategory Guidance. Specifically, for categories that are easily confused (\eg, different source languages), our Subcategory Guidance module encourages separation of the fine-grained categories, boosting performance. Extensive experiments across five LLMs and six domains demonstrate the benefits of our HERO, outperforming the state-of-the-art by 2.5-3 mAP on average.