A Stylometric Application of Large Language Models

📄 arXiv: 2510.21958v1 📥 PDF

作者: Harrison F. Stropkay, Jiayi Chen, Mohammad J. Latifi, Daniel N. Rockmore, Jeremy R. Manning

分类: cs.CL, cs.DL

发布日期: 2025-10-24

备注: All code and data needed to reproduce the results in this paper are available at https://github.com/ContextLab/llm-stylometry


💡 一句话要点

利用大型语言模型进行文体分析,区分不同作者的写作风格。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文体分析 大型语言模型 作者身份识别 GPT-2 自然语言处理

📋 核心要点

  1. 核心问题是区分不同作者的写作风格,传统方法可能难以捕捉细微的文体差异。
  2. 核心思想是训练特定作者的LLM,使其能够更好地预测该作者的文本,从而体现其独特的文风。
  3. 实验表明,针对特定作者训练的GPT-2模型,能更准确预测该作者的文本,验证了该方法的可行性。

📝 摘要(中文)

本文展示了大型语言模型(LLMs)可用于区分不同作者的写作风格。具体而言,针对一位作者的作品从头开始训练的GPT-2模型,能够更准确地预测该作者的保留文本,而不是其他作者的保留文本。我们认为,以这种方式,在一位作者的作品上训练的模型体现了该作者独特的写作风格。我们首先在八位不同(已知)作者的书籍上演示了我们的方法。我们还使用这种方法来确认R. P. Thompson是Oz系列中备受研究的第15本书的作者,该书最初归因于F. L. Baum。

🔬 方法详解

问题定义:论文旨在解决文体分析中的作者身份识别问题。现有的文体分析方法可能依赖于人工特征工程或浅层模型,难以捕捉文本中复杂的文体特征,并且泛化能力有限。因此,如何利用深度学习模型自动学习和区分不同作者的写作风格是一个挑战。

核心思路:论文的核心思路是,如果一个语言模型能够很好地预测某个作者的文本,那么这个模型就隐含地学习了该作者的写作风格。通过训练特定作者的语言模型,并比较其对不同作者文本的预测能力,可以实现作者身份的区分。

技术框架:整体框架包括以下步骤:1) 收集不同作者的文本数据;2) 针对每位作者,使用其文本数据从头开始训练一个GPT-2模型;3) 对于每位作者,保留一部分文本作为测试集;4) 使用训练好的模型预测所有作者的测试集文本;5) 比较模型对不同作者文本的预测准确率,如果模型对训练作者的文本预测准确率更高,则认为该模型成功捕捉了该作者的写作风格。

关键创新:关键创新在于将大型语言模型应用于文体分析,并提出了一种基于模型预测能力的作者身份识别方法。与传统的文体分析方法相比,该方法无需人工特征工程,能够自动学习文本中的复杂文体特征,并且具有较强的泛化能力。

关键设计:论文使用了GPT-2模型作为基础语言模型,并针对每位作者从头开始训练。训练过程中,使用了标准的语言模型训练目标,即最大化文本序列的似然概率。具体参数设置和超参数优化细节可能在论文中有所描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,针对特定作者训练的GPT-2模型,能够显著更准确地预测该作者的保留文本,而不是其他作者的文本。此外,该方法成功验证了R. P. Thompson是Oz系列第15本书的作者,证实了该方法在作者身份识别方面的有效性。

🎯 应用场景

该研究具有广泛的应用前景,包括作者身份验证、版权保护、文学研究、以及网络文本分析等。例如,可以用于判断匿名文章的作者,或者分析不同文学作品的文体特征。未来,该方法可以扩展到其他类型的文本数据,例如新闻报道、社交媒体帖子等,从而实现更广泛的应用。

📄 摘要(原文)

We show that large language models (LLMs) can be used to distinguish the writings of different authors. Specifically, an individual GPT-2 model, trained from scratch on the works of one author, will predict held-out text from that author more accurately than held-out text from other authors. We suggest that, in this way, a model trained on one author's works embodies the unique writing style of that author. We first demonstrate our approach on books written by eight different (known) authors. We also use this approach to confirm R. P. Thompson's authorship of the well-studied 15th book of the Oz series, originally attributed to F. L. Baum.