Benchmark of stylistic variation in LLM-generated texts

作者: Jiří Milička, Anna Marklová, Václav Cvrček

分类: cs.CL, cs.AI

发布日期: 2025-09-12 (更新: 2025-09-18)

备注: Data and scripts: https://osf.io/hs7xt/. Interactive charts: https://www.korpus.cz/stylisticbenchmark/

💡 一句话要点

通过文体变异基准测试，系统评估大型语言模型生成文本的风格差异

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本风格 多维分析 语域变异 基准测试

📋 核心要点

现有研究缺乏对LLM生成文本风格差异的系统性评估，难以量化模型在不同语域下的表现。
论文提出一种基于Biber多维分析的基准测试方法，用于评估LLM生成文本的风格变异，并与人类文本进行对比。
通过在英语和捷克语料库上的实验，论文创建了一个可解释的基准，用于比较和排序不同LLM的风格生成能力。

📝 摘要（中文）

本研究调查了人类撰写文本与大型语言模型（LLM）生成的同类文本之间的语域变异。采用Biber的多维分析（MDA）方法，对人类撰写的文本样本和AI生成的对应文本进行分析，以找出LLM在哪些变异维度上与人类的差异最为显著和系统。文本材料方面，使用了新的LLM生成语料库AI-Brown，该语料库与BE-21（代表当代英国英语的Brown家族语料库）具有可比性。由于除英语外的所有语言在主流LLM的训练数据中都代表性不足，因此使用AI-Koditex语料库和捷克语多维模型在捷克语上复制了类似的分析。研究了16个主流模型在各种设置和提示下的表现，重点关注了基础模型和指令微调模型之间的差异。在此基础上，创建了一个基准，通过该基准可以相互比较模型，并在可解释的维度上进行排序。

🔬 方法详解

问题定义：论文旨在解决如何系统性地评估大型语言模型（LLM）生成文本的风格差异问题。现有方法缺乏对LLM生成文本在不同语域下表现的量化分析，难以判断LLM是否能够模仿人类的写作风格，以及在哪些方面存在差距。

核心思路：论文的核心思路是利用Biber的多维分析（MDA）方法，该方法能够识别文本中不同语言特征的共现模式，从而确定文本的风格维度。通过比较LLM生成文本和人类撰写文本在这些维度上的得分，可以量化LLM的风格变异，并找出其与人类的差异。

技术框架：整体框架包括以下几个主要步骤：1）构建LLM生成文本的语料库（AI-Brown和AI-Koditex）；2）使用Biber的MDA方法分析人类撰写文本和LLM生成文本，得到各自在不同风格维度上的得分；3）比较两者的得分，找出差异显著的维度；4）基于这些差异，创建一个基准，用于比较和排序不同的LLM。

关键创新：论文的关键创新在于将Biber的多维分析方法应用于评估LLM生成文本的风格变异。这种方法能够提供可解释的风格维度，从而更深入地了解LLM的优势和不足。此外，论文还构建了新的LLM生成文本语料库，为后续研究提供了数据基础。

关键设计：论文的关键设计包括：1）选择合适的风格维度进行分析；2）设计合理的提示，以控制LLM生成文本的风格；3）使用统计方法评估LLM生成文本和人类撰写文本之间的差异；4）构建易于理解和使用的基准。

🖼️ 关键图片

📊 实验亮点

研究结果表明，LLM在某些风格维度上与人类存在显著差异，例如在信息密度和叙事性方面。指令微调模型通常比基础模型更接近人类的写作风格。该研究创建的基准可以用于比较不同LLM的风格生成能力，并为未来的研究提供参考。

🎯 应用场景

该研究成果可应用于评估和改进LLM的文本生成能力，使其能够更好地适应不同的写作场景和用户需求。例如，可以利用该基准测试来优化LLM的指令微调过程，提高其生成特定风格文本的能力。此外，该研究还可以帮助用户选择最适合其需求的LLM。

📄 摘要（原文）

This study investigates the register variation in texts written by humans and comparable texts produced by large language models (LLMs). Biber's multidimensional analysis (MDA) is applied to a sample of human-written texts and AI-created texts generated to be their counterparts to find the dimensions of variation in which LLMs differ most significantly and most systematically from humans. As textual material, a new LLM-generated corpus AI-Brown is used, which is comparable to BE-21 (a Brown family corpus representing contemporary British English). Since all languages except English are underrepresented in the training data of frontier LLMs, similar analysis is replicated on Czech using AI-Koditex corpus and Czech multidimensional model. Examined were 16 frontier models in various settings and prompts, with emphasis placed on the difference between base models and instruction-tuned models. Based on this, a benchmark is created through which models can be compared with each other and ranked in interpretable dimensions.

Benchmark of stylistic variation in LLM-generated texts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理