Interpretable Stylistic Variation in Human and LLM Writing Across Genres, Models, and Decoding Strategies

📄 arXiv: 2604.14111v1 📥 PDF

作者: Swati Rallapalli, Shannon Gallagher, Ronald Yurko, Tyler Brooks, Chuck Loughin, Michele Sezgin, Violet Turri

分类: cs.CL

发布日期: 2026-04-15


💡 一句话要点

通过词汇语法特征分析人类与LLM在不同领域和策略下的写作风格差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 写作风格分析 词汇语法特征 领域适应 解码策略 风格控制 LLM检测

📋 核心要点

  1. 现有研究主要集中于检测LLM生成文本,而忽略了对人类与机器写作风格差异的深入理解。
  2. 本研究采用词汇语法特征,大规模分析了人类与LLM在不同领域和解码策略下的写作风格差异。
  3. 实验表明,领域和模型选择对写作风格的影响大于提示和解码策略,为LLM的合理使用提供了指导。

📝 摘要(中文)

大型语言模型(LLM)现在能够生成高度流畅、类人的文本。这带来了许多应用,但也引发了诸如大规模垃圾邮件、网络钓鱼或学术滥用等担忧。虽然大量工作集中在检测LLM生成的文本上,但只有有限的工作致力于理解人类写作和机器生成文本之间的风格差异。本文使用Douglas Biber的一组词汇语法和功能特征,对人类写作文本和来自11个LLM的输出在8个不同领域和4种解码策略下的风格变化进行了大规模分析。研究结果揭示了可以指导LLM使用的见解。首先,LLM生成文本的关键语言区分因素似乎对生成条件具有鲁棒性(例如,提示设置以促使它们生成类人文本,或提供人类写作文本以延续风格);其次,领域对风格特征的影响比来源本身更大;第三,模型的聊天变体通常在风格空间中聚集在一起;最后,模型对风格的影响大于解码策略,但也有一些例外。这些结果突出了模型和领域在塑造机器生成文本的风格行为方面比提示和解码策略更重要。

🔬 方法详解

问题定义:当前的研究主要集中于区分LLM生成的文本和人类撰写的文本,而忽略了对两者之间风格差异的深入理解。现有的方法缺乏对不同LLM、不同领域以及不同生成策略下写作风格差异的系统性分析,无法为LLM的合理使用提供有效的指导。

核心思路:本研究的核心思路是通过分析人类和LLM生成文本的词汇语法特征,量化两者之间的风格差异。通过大规模的实验,探究领域、模型和解码策略等因素对写作风格的影响,从而揭示LLM生成文本的内在规律。

技术框架:本研究的技术框架主要包括以下几个步骤:1) 收集人类撰写的文本和LLM生成的文本,涵盖8个不同的领域;2) 使用11个不同的LLM,并采用4种不同的解码策略生成文本;3) 利用Douglas Biber提出的词汇语法和功能特征,对文本进行特征提取;4) 对提取的特征进行统计分析,比较不同来源、领域和解码策略下的风格差异。

关键创新:本研究的关键创新在于:1) 对LLM生成文本的风格差异进行了大规模的系统性分析,涵盖了多个模型、领域和解码策略;2) 采用Douglas Biber的词汇语法特征,实现了对写作风格的量化分析;3) 揭示了领域和模型选择对写作风格的影响大于提示和解码策略,为LLM的合理使用提供了新的视角。

关键设计:本研究的关键设计包括:1) 选择了具有代表性的11个LLM,涵盖了不同架构和规模的模型;2) 选择了8个不同的领域,以保证研究结果的泛化性;3) 采用了4种常用的解码策略,包括贪婪解码、束搜索等;4) 使用了Douglas Biber提出的67个词汇语法特征,包括名词化、被动语态、疑问词等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,领域对写作风格的影响大于文本来源本身,即特定领域的LLM生成文本更接近该领域的人类写作风格。此外,模型选择对风格的影响大于解码策略,但聊天机器人变体在风格空间中聚集。这些结果表明,在控制LLM生成文本的风格时,应优先考虑领域和模型选择。

🎯 应用场景

该研究成果可应用于LLM生成文本的风格控制,例如,根据特定领域或目标受众调整LLM的写作风格。此外,该研究还可以用于开发更有效的LLM检测方法,通过分析风格特征来区分机器生成文本和人类撰写文本。未来,可以进一步研究如何利用这些风格差异来提高LLM生成文本的可信度和接受度。

📄 摘要(原文)

Large Language Models (LLMs) are now capable of generating highly fluent, human-like text. They enable many applications, but also raise concerns such as large scale spam, phishing, or academic misuse. While much work has focused on detecting LLM-generated text, only limited work has gone into understanding the stylistic differences between human-written and machine-generated text. In this work, we perform a large scale analysis of stylistic variation across human-written text and outputs from 11 LLMs spanning 8 different genres and 4 decoding strategies using Douglas Biber's set of lexicogrammatical and functional features. Our findings reveal insights that can guide intentional LLM usage. First, key linguistic differentiators of LLM-generated text seem robust to generation conditions (e.g., prompt settings to nudge them to generate human-like text, or availability of human-written text to continue the style); second, genre exerts a stronger influence on stylistic features than the source itself; third, chat variants of the models generally appear to be clustered together in stylistic space, and finally, model has a larger effect on the style than decoding strategy, with some exceptions. These results highlight the relative importance of model and genre over prompting and decoding strategies in shaping the stylistic behavior of machine-generated text.