Stylometry recognizes human and LLM-generated texts in short samples
作者: Karol Przystalski, Jan K. Argasiński, Iwona Grabska-Gradzińska, Jeremi K. Ochab
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-01 (更新: 2025-07-15)
期刊: Expert Systems with Applications 296, 129001 (2026)
DOI: 10.1016/j.eswa.2025.129001
💡 一句话要点
文体学可有效区分人类与LLM生成的短文本,解决模型归属与AI伦理问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文体学 大型语言模型 文本分类 AI内容检测 模型归属
📋 核心要点
- 现有方法难以有效区分人类与LLM生成的文本,尤其是在短文本场景下,这给模型归属和AI伦理带来挑战。
- 本文提出利用文体学特征,结合机器学习模型,分析文本的词汇、语法、句法和标点符号模式,从而区分不同来源的文本。
- 实验结果表明,该方法在区分人类与多种LLM生成的维基百科摘要文本时,取得了显著效果,最高准确率达到0.98。
📝 摘要(中文)
本文探讨了文体学作为区分大型语言模型(LLM)和人类创作文本的方法,旨在解决模型归属、知识产权和人工智能伦理使用等问题。文体学已被广泛用于描述文本风格和归属作者。通过将其应用于LLM生成的文本,我们识别出它们涌现的写作模式。本文创建了一个基于维基百科的基准数据集,包含(a)人类撰写的术语摘要,(b)纯粹由LLM(GPT-3.5/4、LLaMa 2/3、Orca和Falcon)生成的文本,(c)通过多种文本摘要方法(T5、BART、Gensim和Sumy)处理的文本,以及(d)通过释义方法(Dipper、T5)处理的文本。使用基于树的模型(决策树和LightGBM),利用人工设计的(StyloMetrix)和基于n-gram的(我们自己的pipeline)文体特征(编码词汇、语法、句法和标点符号模式)对10句话长的文本进行分类。在具有7个类别的多类场景中,交叉验证结果达到了高达0.87的马修斯相关系数,在二元分类中,准确率在0.79到1之间,其中维基百科和GPT-4的特定示例在平衡数据集上达到了高达0.98的准确率。Shapley Additive Explanations指出了百科全书文本类型的特征、过度使用的个别词语,以及LLM相对于人类撰写文本的更高的语法标准化程度。这些结果表明——至关重要的是,在日益复杂的LLM的背景下——至少对于定义明确的文本类型,区分机器生成的文本和人类生成的文本是可能的。
🔬 方法详解
问题定义:论文旨在解决区分人类撰写文本和大型语言模型(LLM)生成文本的问题。现有方法在处理短文本时,区分效果不佳,并且缺乏对不同LLM生成文本风格的细致分析,这使得模型归属和AI伦理监管变得困难。
核心思路:论文的核心思路是利用文体学特征来捕捉人类和LLM在写作风格上的差异。文体学通过分析文本的词汇、语法、句法和标点符号模式,可以揭示文本的作者或生成者的独特特征。通过训练机器学习模型,可以自动识别这些特征,从而区分不同来源的文本。
技术框架:整体流程包括以下几个阶段:1) 数据集构建:构建包含人类撰写和多种LLM生成的维基百科摘要文本的数据集。2) 特征提取:使用人工设计的StyloMetrix特征和基于n-gram的特征提取pipeline,提取文本的词汇、语法、句法和标点符号特征。3) 模型训练:使用决策树和LightGBM等树模型,基于提取的文体特征训练分类器。4) 模型评估:使用交叉验证评估模型在区分人类和LLM生成文本方面的性能。5) 特征解释:使用Shapley Additive Explanations (SHAP) 分析模型使用的关键特征,从而理解人类和LLM写作风格的差异。
关键创新:论文的关键创新在于:1) 将文体学方法应用于区分LLM生成的文本,并验证了其在短文本上的有效性。2) 构建了一个包含多种LLM和文本处理方法生成文本的基准数据集,为相关研究提供了数据基础。3) 使用SHAP分析揭示了LLM和人类写作风格的差异,例如LLM的语法标准化程度更高。
关键设计:论文的关键设计包括:1) 使用StyloMetrix特征和基于n-gram的特征提取pipeline,捕捉文本的词汇、语法、句法和标点符号模式。StyloMetrix特征是人工设计的,侧重于特定语言学指标,而n-gram特征则可以自动捕捉文本中的序列模式。2) 使用决策树和LightGBM等树模型进行分类。树模型具有较好的可解释性和鲁棒性,适合处理高维文体特征。3) 使用交叉验证评估模型性能,确保结果的可靠性。4) 使用SHAP值来解释模型预测,从而理解模型使用的关键特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在区分人类与LLM生成的维基百科摘要文本时,取得了显著效果。在7分类的多类场景中,交叉验证的马修斯相关系数达到0.87。在二元分类中,准确率在0.79到1之间,其中区分维基百科和GPT-4生成的文本时,在平衡数据集上达到了0.98的准确率。
🎯 应用场景
该研究成果可应用于检测AI生成内容,辅助内容溯源,保护知识产权,并促进AI伦理发展。例如,可用于识别虚假新闻、检测学术抄袭、评估AI写作质量等。未来,该技术可与水印技术结合,实现对AI生成内容的有效监管。
📄 摘要(原文)
The paper explores stylometry as a method to distinguish between texts created by Large Language Models (LLMs) and humans, addressing issues of model attribution, intellectual property, and ethical AI use. Stylometry has been used extensively to characterise the style and attribute authorship of texts. By applying it to LLM-generated texts, we identify their emergent writing patterns. The paper involves creating a benchmark dataset based on Wikipedia, with (a) human-written term summaries, (b) texts generated purely by LLMs (GPT-3.5/4, LLaMa 2/3, Orca, and Falcon), (c) processed through multiple text summarisation methods (T5, BART, Gensim, and Sumy), and (d) rephrasing methods (Dipper, T5). The 10-sentence long texts were classified by tree-based models (decision trees and LightGBM) using human-designed (StyloMetrix) and n-gram-based (our own pipeline) stylometric features that encode lexical, grammatical, syntactic, and punctuation patterns. The cross-validated results reached a performance of up to .87 Matthews correlation coefficient in the multiclass scenario with 7 classes, and accuracy between .79 and 1. in binary classification, with the particular example of Wikipedia and GPT-4 reaching up to .98 accuracy on a balanced dataset. Shapley Additive Explanations pinpointed features characteristic of the encyclopaedic text type, individual overused words, as well as a greater grammatical standardisation of LLMs with respect to human-written texts. These results show -- crucially, in the context of the increasingly sophisticated LLMs -- that it is possible to distinguish machine- from human-generated texts at least for a well-defined text type.