Benchmark of stylistic variation in LLM-generated texts

作者: Jiří Milička, Anna Marklová, Václav Cvrček

分类: cs.CL, cs.AI

发布日期: 2025-09-12 (更新: 2025-09-18)

备注: Data and scripts: https://osf.io/hs7xt/. Interactive charts: https://www.korpus.cz/stylisticbenchmark/

💡 一句话要点

构建LLM文本风格基准：分析人类与AI生成文本的文体差异

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本风格分析 多维分析 语域变异 风格基准

📋 核心要点

现有研究缺乏对LLM生成文本风格差异的系统性分析，难以评估其在不同语域的适应性。
本研究利用多维分析方法，对比人类与LLM生成文本在不同文体维度上的差异，揭示LLM的风格偏好。
通过构建AI-Brown和AI-Koditex语料库，并在英语和捷克语上进行实验，为LLM的风格评估提供基准。

📝 摘要（中文）

本研究调查了人类撰写文本与大型语言模型(LLM)生成的同类文本之间的语域变异。采用Biber的多维分析(MDA)方法，对人类撰写的文本样本和AI生成的对应文本进行分析，以找出LLM在哪些变异维度上与人类的差异最为显著和系统。文本材料方面，使用了一个新的LLM生成语料库AI-Brown，它与BE-21（代表当代英国英语的Brown家族语料库）具有可比性。由于除英语外的所有语言在主流LLM的训练数据中都代表性不足，因此使用AI-Koditex语料库和捷克语多维模型在捷克语上复制了类似的分析。研究了16个主流模型在各种设置和提示下的表现，重点关注了基础模型和指令微调模型之间的差异。在此基础上，创建了一个基准，通过该基准可以相互比较模型，并在可解释的维度上进行排名。

🔬 方法详解

问题定义：论文旨在量化和比较大型语言模型（LLM）生成的文本与人类撰写文本在文体上的差异。现有方法难以系统性地评估LLM在不同语域下的表现，缺乏可解释的风格基准。

核心思路：论文的核心思路是利用Biber的多维分析（MDA）方法，将文本的文体特征分解为多个维度，然后比较LLM生成文本和人类文本在这些维度上的得分差异。通过这种方式，可以识别LLM在哪些文体特征上与人类存在显著偏差。

技术框架：整体框架包括以下几个主要步骤：1) 构建LLM生成文本的语料库（AI-Brown和AI-Koditex）；2) 对人类文本和LLM生成文本进行预处理和特征提取；3) 使用Biber的MDA方法，计算文本在各个文体维度上的得分；4) 比较LLM生成文本和人类文本在各个维度上的得分差异，并进行统计显著性检验；5) 基于分析结果，构建LLM风格基准。

关键创新：论文的关键创新在于：1) 系统性地将Biber的MDA方法应用于LLM生成文本的风格分析；2) 构建了两个新的LLM生成文本语料库（AI-Brown和AI-Koditex），为后续研究提供了数据基础；3) 提出了一个可解释的LLM风格基准，可以用于比较不同LLM的风格特征。与现有方法相比，该方法更加系统、客观，并且能够提供更细粒度的风格差异分析。

关键设计：论文的关键设计包括：1) 语料库的构建：AI-Brown语料库与BE-21语料库（Brown家族语料库）具有可比性，保证了实验的公平性；AI-Koditex语料库用于捷克语的分析，扩展了研究的语言范围。2) 模型选择：选择了16个主流LLM，包括基础模型和指令微调模型，可以比较不同类型模型的风格特征。3) 统计分析：使用了合适的统计方法（如t检验）来检验LLM生成文本和人类文本在各个维度上的得分差异是否具有统计显著性。

📊 实验亮点

研究发现，LLM在某些文体维度上与人类存在显著差异，例如，LLM生成的文本通常更加正式、客观，缺乏口语化的表达。指令微调模型在一定程度上可以缓解这些问题，但仍然存在改进空间。该研究构建的LLM风格基准可以用于量化这些差异，并为后续研究提供参考。

🎯 应用场景

该研究成果可应用于评估和改进LLM的文本生成能力，使其在不同应用场景下生成更符合人类习惯的文本。例如，在机器翻译、文本摘要、对话系统等领域，可以利用该基准来优化LLM的风格，提高生成文本的质量和用户体验。此外，该研究还可以帮助人们更好地理解LLM的局限性，并开发更有效的提示工程方法。

📄 摘要（原文）

This study investigates the register variation in texts written by humans and comparable texts produced by large language models (LLMs). Biber's multidimensional analysis (MDA) is applied to a sample of human-written texts and AI-created texts generated to be their counterparts to find the dimensions of variation in which LLMs differ most significantly and most systematically from humans. As textual material, a new LLM-generated corpus AI-Brown is used, which is comparable to BE-21 (a Brown family corpus representing contemporary British English). Since all languages except English are underrepresented in the training data of frontier LLMs, similar analysis is replicated on Czech using AI-Koditex corpus and Czech multidimensional model. Examined were 16 frontier models in various settings and prompts, with emphasis placed on the difference between base models and instruction-tuned models. Based on this, a benchmark is created through which models can be compared with each other and ranked in interpretable dimensions.

Benchmark of stylistic variation in LLM-generated texts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册