Authorship Impersonation via LLM Prompting does not Evade Authorship Verification Methods

📄 arXiv: 2603.29454v1 📥 PDF

作者: Baoyi Zeng, Andrea Nini

分类: cs.CL

发布日期: 2026-03-31

备注: 11 pages, 3 figures


💡 一句话要点

基于LLM提示的作者模仿无法有效规避现有作者身份验证方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 作者身份验证 大型语言模型 法庭语言学 作者模仿 GPT-4o

📋 核心要点

  1. 现有作者身份验证方法在面对LLM驱动的作者模仿攻击时,其有效性面临挑战。
  2. 研究核心在于评估LLM生成的模仿文本是否能欺骗现有的作者身份验证系统,并分析其内在原因。
  3. 实验结果表明,现有作者身份验证系统对LLM生成的初级模仿攻击具有较强的鲁棒性,且LLM生成文本的词汇多样性是关键因素。

📝 摘要(中文)

作者身份验证(AV)是法庭语言学中的一个关键任务,旨在确定受质疑的文本是否由特定个人撰写。虽然长期以来,人为的作者模仿一直是法庭案件中公认的威胁,但大型语言模型(LLM)的最新进展带来了新的挑战,因为攻击者可能会利用这些工具来模仿他人的写作风格。本研究调查了通过提示LLM是否可以生成令人信服的作者模仿文本,以及这些输出是否可以规避现有的法庭AV系统。我们使用GPT-4o作为对抗模型,在电子邮件、短信和社交媒体帖子三种类型下,通过四种提示条件生成模仿文本。然后,我们在似然比框架内,使用非神经AV方法(n-gram追踪、基于排序的冒名顶替者方法、LambdaG)和神经方法(AdHominem、LUAR、STAR)评估这些输出。结果表明,LLM生成的文本未能充分复制作者的个性,从而绕过已建立的AV系统。我们还观察到,与真正的负样本相比,某些方法在拒绝模仿文本时甚至获得了更高的准确性。总而言之,这些发现表明,尽管LLM易于访问,但当前的AV系统对于多种类型的入门级模仿尝试仍然具有鲁棒性。此外,我们证明了这种违反直觉的弹性至少部分源于LLM生成的文本中固有的更高的词汇多样性和熵。

🔬 方法详解

问题定义:论文旨在评估现有作者身份验证(AV)系统在面对大型语言模型(LLM)生成的模仿文本时的有效性。现有AV系统主要针对人为模仿,而LLM的出现使得模仿的成本大大降低,质量可能更高,这给AV系统带来了新的挑战。现有研究缺乏对LLM生成模仿文本的系统性评估,因此无法确定现有AV系统是否仍然有效。

核心思路:论文的核心思路是利用LLM(GPT-4o)生成模仿特定作者写作风格的文本,然后使用现有的AV系统来判断这些模仿文本是否能够成功欺骗AV系统。通过比较AV系统对真实文本和模仿文本的判断结果,可以评估AV系统在面对LLM模仿攻击时的鲁棒性。论文还分析了LLM生成文本的特性,例如词汇多样性和熵,以解释AV系统为何能够有效识别模仿文本。

技术框架:整体流程包括以下几个步骤:1) 选择目标作者和文本类型(电子邮件、短信、社交媒体帖子);2) 使用GPT-4o在不同的提示条件下生成模仿文本;3) 使用非神经AV方法(n-gram tracing, Ranking-Based Impostors Method, LambdaG)和神经AV方法(AdHominem, LUAR, STAR)对生成的文本进行验证;4) 使用似然比框架评估AV系统的性能;5) 分析LLM生成文本的词汇多样性和熵等特征。

关键创新:论文的主要创新在于首次系统性地评估了LLM生成的模仿文本对现有作者身份验证系统的影响。论文不仅评估了AV系统的性能,还分析了LLM生成文本的特性,并解释了AV系统为何能够有效识别模仿文本。这为未来的AV系统设计提供了新的思路。

关键设计:论文使用了GPT-4o作为模仿模型,并设计了四种不同的提示条件来控制模仿的程度。使用了多种非神经和神经AV方法,并在似然比框架下进行评估。关键的技术细节包括:n-gram的选取、排序方法的选择、LambdaG的参数设置、神经模型的结构和训练方式等。此外,论文还使用了词汇多样性和熵等指标来分析LLM生成文本的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使使用强大的LLM(GPT-4o)进行模仿,现有的作者身份验证系统仍然能够有效识别模仿文本。某些方法在拒绝模仿文本时甚至获得了比拒绝真实负样本更高的准确性。这表明现有AV系统对LLM生成的初级模仿攻击具有较强的鲁棒性。分析表明,LLM生成文本的词汇多样性和熵是AV系统能够有效识别模仿文本的关键因素。

🎯 应用场景

该研究成果可应用于法庭科学、版权保护、网络安全等领域。在法庭科学中,可以帮助判断匿名信件或文件的作者身份。在版权保护中,可以检测是否存在抄袭或模仿行为。在网络安全中,可以识别恶意用户是否伪装成他人发送信息。未来的研究可以探索更高级的LLM模仿技术,并开发更鲁棒的作者身份验证系统。

📄 摘要(原文)

Authorship verification (AV), the task of determining whether a questioned text was written by a specific individual, is a critical part of forensic linguistics. While manual authorial impersonation by perpetrators has long been a recognized threat in historical forensic cases, recent advances in large language models (LLMs) raise new challenges, as adversaries may exploit these tools to impersonate another's writing. This study investigates whether prompted LLMs can generate convincing authorial impersonations and whether such outputs can evade existing forensic AV systems. Using GPT-4o as the adversary model, we generated impersonation texts under four prompting conditions across three genres: emails, text messages, and social media posts. We then evaluated these outputs against both non-neural AV methods (n-gram tracing, Ranking-Based Impostors Method, LambdaG) and neural approaches (AdHominem, LUAR, STAR) within a likelihood-ratio framework. Results show that LLM-generated texts failed to sufficiently replicate authorial individuality to bypass established AV systems. We also observed that some methods achieved even higher accuracy when rejecting impersonation texts compared to genuine negative samples. Overall, these findings indicate that, despite the accessibility of LLMs, current AV systems remain robust against entry-level impersonation attempts across multiple genres. Furthermore, we demonstrate that this counter-intuitive resilience stems, at least in part, from the higher lexical diversity and entropy inherent in LLM-generated texts.