When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection
作者: Lang Gao, Xuhui Li, Chenxi Wang, Mingzhe Li, Wei Liu, Zirui Song, Jinghui Zhang, Rui Yan, Preslav Nakov, Xiuying Chen
分类: cs.CL, cs.AI
发布日期: 2025-10-14
💡 一句话要点
提出个性化文本检测基准以解决机器生成文本的识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个性化文本检测 机器生成文本 特征反转 检测器性能 大型语言模型
📋 核心要点
- 现有的机器生成文本检测方法在个性化文本场景中表现不佳,导致性能显著下降。
- 本文提出了 extit{method},通过识别与反转特征相关的潜在方向,构建探测数据集以评估检测器的依赖性。
- 实验结果表明, extit{method}能够准确预测检测器性能变化的方向和幅度,与实际性能差距的相关性达到85%。
📝 摘要(中文)
大型语言模型(LLMs)在文本生成方面变得越来越强大,能够生成流畅的文本并模仿个人风格。然而,这种能力也增加了身份冒充的风险。本文首次提出了个性化机器生成文本(MGT)检测的基准—— extit{dataset},通过文学和博客文本及其LLM生成的模仿文本进行构建。实验结果显示,在个性化设置下,各种检测器的性能差异显著,部分最先进模型的性能大幅下降。我们将这一局限性归因于 extit{特征反转陷阱},即在个性化文本中,通常具有区分性的特征变得反向且误导。基于此发现,我们提出了 extit{method},一种简单可靠的方法来预测个性化设置下检测器性能的变化。
🔬 方法详解
问题定义:本文旨在解决个性化机器生成文本检测中的性能下降问题。现有方法在处理个性化文本时,通常依赖的特征在此场景中变得反向且误导,导致检测器失效。
核心思路:论文的核心思路是通过识别与反转特征相关的潜在方向,构建探测数据集,以评估检测器在个性化文本中的表现变化。这种设计旨在揭示个性化文本对检测器性能的影响。
技术框架:整体架构包括特征提取、潜在方向识别和探测数据集构建三个主要模块。首先,从个性化文本中提取特征;然后,识别与反转特征相关的潜在方向;最后,构建探测数据集以评估检测器性能。
关键创新:最重要的技术创新点在于提出了 extit{特征反转陷阱}的概念,并通过 extit{method}有效预测检测器在个性化文本中的性能变化。这一方法与现有方法的本质区别在于关注个性化特征的影响。
关键设计:在参数设置上, extit{method}使用了特定的损失函数来优化特征提取过程,并在网络结构上采用了适应性调整,以便更好地捕捉个性化文本中的特征变化。实验中,探测数据集的构建也考虑了多样性和代表性,以确保评估的全面性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,部分最先进的检测器在个性化设置下性能下降显著, extit{method}能够准确预测检测器性能变化的方向和幅度,相关性达到85%。这一发现为个性化文本检测提供了新的视角和方法,具有重要的理论和实践意义。
🎯 应用场景
该研究的潜在应用领域包括社交媒体监控、内容审核和身份验证等。通过提高个性化文本的检测能力,可以有效防止身份冒充和虚假信息的传播,具有重要的实际价值和社会影响。未来,该研究可能推动个性化文本检测技术的进一步发展,促进相关领域的研究进展。
📄 摘要(原文)
Large language models (LLMs) have grown more powerful in language generation, producing fluent text and even imitating personal style. Yet, this ability also heightens the risk of identity impersonation. To the best of our knowledge, no prior work has examined personalized machine-generated text (MGT) detection. In this paper, we introduce \dataset, the first benchmark for evaluating detector robustness in personalized settings, built from literary and blog texts paired with their LLM-generated imitations. Our experimental results demonstrate large performance gaps across detectors in personalized settings: some state-of-the-art models suffer significant drops. We attribute this limitation to the \textit{feature-inversion trap}, where features that are discriminative in general domains become inverted and misleading when applied to personalized text. Based on this finding, we propose \method, a simple and reliable way to predict detector performance changes in personalized settings. \method identifies latent directions corresponding to inverted features and constructs probe datasets that differ primarily along these features to evaluate detector dependence. Our experiments show that \method can accurately predict both the direction and the magnitude of post-transfer changes, showing 85\% correlation with the actual performance gaps. We hope that this work will encourage further research on personalized text detection.