Beyond the Final Actor: Modeling the Dual Roles of Creator and Editor for Fine-Grained LLM-Generated Text Detection

📄 arXiv: 2604.04932 📥 PDF

作者: Yang Li, Qiang Sheng, Zhengjia Wang, Yehan Yang, Danding Wang, Juan Cao

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出RACE模型,用于细粒度区分LLM生成文本的不同类型,提升LLM监管精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM生成文本检测 细粒度分类 修辞结构理论 创建者-编辑者建模 内容安全

📋 核心要点

  1. 现有LLM生成文本检测方法无法区分LLM润色的人工文本和人工化的LLM文本,导致监管策略难以精细化。
  2. RACE模型通过分析文本的修辞结构和话语单元特征,区分文本的创建者和编辑者角色,从而实现细粒度检测。
  3. 实验结果表明,RACE模型在四分类任务中显著优于现有方法,降低了误报率,更符合实际监管需求。

📝 摘要(中文)

大型语言模型(LLM)的滥用需要对合成文本进行精确检测。现有工作主要采用二元或三元分类设置,最多只能区分纯人工/LLM文本或协作文本。这对于细致的监管仍然不足,因为LLM润色的人工文本和人工化的LLM文本通常会引发不同的策略后果。本文探讨了严格的四类设置下的细粒度LLM生成文本检测。为了处理这种复杂性,我们提出RACE(Creator-Editor建模的修辞分析),一种细粒度检测方法,用于表征创建者和编辑者的不同特征。具体来说,RACE利用修辞结构理论来构建创建者的逻辑图,同时提取基本话语单元级别的特征来表示编辑者的风格。实验表明,RACE在识别细粒度类型方面优于12个基线,且误报率低,为LLM监管提供了一种与策略对齐的解决方案。

🔬 方法详解

问题定义:现有LLM生成文本检测方法主要集中在二元或三元分类,无法区分LLM润色的人工文本和人工化的LLM文本。这种粗粒度的区分方式无法满足精细化监管的需求,因为不同类型的生成文本可能触发不同的策略后果。因此,需要一种能够更细粒度区分LLM生成文本类型的方法。

核心思路:论文的核心思路是将文本的生成过程分解为“创建者”和“编辑者”两个角色,并分别对这两个角色进行建模。创建者负责文本的基础内容和逻辑结构,而编辑者负责对文本进行润色和修改。通过分析文本中体现的创建者和编辑者的不同特征,可以更准确地判断文本的生成方式。

技术框架:RACE模型主要包含两个模块:创建者建模模块和编辑者建模模块。创建者建模模块利用修辞结构理论(RST)构建文本的逻辑图,从而捕捉创建者的写作风格和逻辑结构。编辑者建模模块提取基本话语单元(EDU)级别的特征,例如词汇、句法和情感特征,从而捕捉编辑者的润色风格。最后,将两个模块的特征进行融合,用于细粒度分类。

关键创新:RACE模型的关键创新在于将文本生成过程分解为创建者和编辑者两个角色,并分别进行建模。这种建模方式能够更准确地捕捉不同类型LLM生成文本的特征,从而实现细粒度检测。与现有方法相比,RACE模型能够更好地适应复杂的文本生成场景,例如LLM润色的人工文本和人工化的LLM文本。

关键设计:在创建者建模模块中,使用RST解析器将文本解析为修辞结构树,然后将树结构转换为逻辑图。在编辑者建模模块中,使用预训练语言模型(例如BERT)提取EDU级别的特征。损失函数采用交叉熵损失函数,优化器采用AdamW优化器。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RACE模型在四分类任务中显著优于12个基线模型,包括传统的文本分类方法和基于预训练语言模型的模型。RACE模型在所有类别上的F1-score均有显著提升,尤其是在区分LLM润色的人工文本和人工化的LLM文本方面表现出色。此外,RACE模型还具有较低的误报率,能够有效减少对人工文本的误判。

🎯 应用场景

该研究成果可应用于内容安全、学术诚信、舆情分析等领域。通过精确识别不同类型的LLM生成文本,可以有效防止虚假信息的传播,维护健康的学术环境,并为舆情监控提供更准确的数据支持。未来,该技术还可用于辅助内容创作,例如自动识别和修改LLM生成的文本,使其更符合人类的写作风格。

📄 摘要(原文)

The misuse of large language models (LLMs) requires precise detection of synthetic text. Existing works mainly follow binary or ternary classification settings, which can only distinguish pure human/LLM text or collaborative text at best. This remains insufficient for the nuanced regulation, as the LLM-polished human text and humanized LLM text often trigger different policy consequences. In this paper, we explore fine-grained LLM-generated text detection under a rigorous four-class setting. To handle such complexities, we propose RACE (Rhetorical Analysis for Creator-Editor Modeling), a fine-grained detection method that characterizes the distinct signatures of creator and editor. Specifically, RACE utilizes Rhetorical Structure Theory to construct a logic graph for the creator's foundation while extracting Elementary Discourse Unit-level features for the editor's style. Experiments show that RACE outperforms 12 baselines in identifying fine-grained types with low false alarms, offering a policy-aligned solution for LLM regulation.