Benchmark of stylistic variation in LLM-generated texts

📄 arXiv: 2509.10179v2 📥 PDF

作者: Jiří Milička, Anna Marklová, Václav Cvrček

分类: cs.CL, cs.AI

发布日期: 2025-09-12 (更新: 2025-09-18)

备注: Data and scripts: https://osf.io/hs7xt/. Interactive charts: https://www.korpus.cz/stylisticbenchmark/


💡 一句话要点

通过文体变异基准测试,系统评估大型语言模型生成文本的风格差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本风格 多维分析 语域变异 基准测试

📋 核心要点

  1. 现有研究缺乏对LLM生成文本风格差异的系统性评估,难以量化模型在不同语域下的表现。
  2. 论文提出一种基于Biber多维分析的基准测试方法,用于评估LLM生成文本的风格变异,并与人类文本进行对比。
  3. 通过在英语和捷克语料库上的实验,论文创建了一个可解释的基准,用于比较和排序不同LLM的风格生成能力。

📝 摘要(中文)

本研究调查了人类撰写文本与大型语言模型(LLM)生成的同类文本之间的语域变异。采用Biber的多维分析(MDA)方法,对人类撰写的文本样本和AI生成的对应文本进行分析,以找出LLM在哪些变异维度上与人类的差异最为显著和系统。文本材料方面,使用了新的LLM生成语料库AI-Brown,该语料库与BE-21(代表当代英国英语的Brown家族语料库)具有可比性。由于除英语外的所有语言在主流LLM的训练数据中都代表性不足,因此使用AI-Koditex语料库和捷克语多维模型在捷克语上复制了类似的分析。研究了16个主流模型在各种设置和提示下的表现,重点关注了基础模型和指令微调模型之间的差异。在此基础上,创建了一个基准,通过该基准可以相互比较模型,并在可解释的维度上进行排序。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大型语言模型(LLM)生成文本的风格差异问题。现有方法缺乏对LLM生成文本在不同语域下表现的量化分析,难以判断LLM是否能够模仿人类的写作风格,以及在哪些方面存在差距。

核心思路:论文的核心思路是利用Biber的多维分析(MDA)方法,该方法能够识别文本中不同语言特征的共现模式,从而确定文本的风格维度。通过比较LLM生成文本和人类撰写文本在这些维度上的得分,可以量化LLM的风格变异,并找出其与人类的差异。

技术框架:整体框架包括以下几个主要步骤:1)构建LLM生成文本的语料库(AI-Brown和AI-Koditex);2)使用Biber的MDA方法分析人类撰写文本和LLM生成文本,得到各自在不同风格维度上的得分;3)比较两者的得分,找出差异显著的维度;4)基于这些差异,创建一个基准,用于比较和排序不同的LLM。

关键创新:论文的关键创新在于将Biber的多维分析方法应用于评估LLM生成文本的风格变异。这种方法能够提供可解释的风格维度,从而更深入地了解LLM的优势和不足。此外,论文还构建了新的LLM生成文本语料库,为后续研究提供了数据基础。

关键设计:论文的关键设计包括:1)选择合适的风格维度进行分析;2)设计合理的提示,以控制LLM生成文本的风格;3)使用统计方法评估LLM生成文本和人类撰写文本之间的差异;4)构建易于理解和使用的基准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,LLM在某些风格维度上与人类存在显著差异,例如在信息密度和叙事性方面。指令微调模型通常比基础模型更接近人类的写作风格。该研究创建的基准可以用于比较不同LLM的风格生成能力,并为未来的研究提供参考。

🎯 应用场景

该研究成果可应用于评估和改进LLM的文本生成能力,使其能够更好地适应不同的写作场景和用户需求。例如,可以利用该基准测试来优化LLM的指令微调过程,提高其生成特定风格文本的能力。此外,该研究还可以帮助用户选择最适合其需求的LLM。

📄 摘要(原文)

This study investigates the register variation in texts written by humans and comparable texts produced by large language models (LLMs). Biber's multidimensional analysis (MDA) is applied to a sample of human-written texts and AI-created texts generated to be their counterparts to find the dimensions of variation in which LLMs differ most significantly and most systematically from humans. As textual material, a new LLM-generated corpus AI-Brown is used, which is comparable to BE-21 (a Brown family corpus representing contemporary British English). Since all languages except English are underrepresented in the training data of frontier LLMs, similar analysis is replicated on Czech using AI-Koditex corpus and Czech multidimensional model. Examined were 16 frontier models in various settings and prompts, with emphasis placed on the difference between base models and instruction-tuned models. Based on this, a benchmark is created through which models can be compared with each other and ranked in interpretable dimensions.