Benchmark of stylistic variation in LLM-generated texts
作者: Jiří Milička, Anna Marklová, Václav Cvrček
分类: cs.CL, cs.AI
发布日期: 2025-09-12 (更新: 2025-09-18)
备注: Data and scripts: https://osf.io/hs7xt/. Interactive charts: https://www.korpus.cz/stylisticbenchmark/
💡 一句话要点
构建LLM文本风格基准:分析人类与AI生成文本的文体差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本风格分析 多维分析 语域变异 风格基准
📋 核心要点
- 现有研究缺乏对LLM生成文本风格差异的系统性分析,难以评估其在不同语域的适应性。
- 本研究利用多维分析方法,对比人类与LLM生成文本在不同文体维度上的差异,揭示LLM的风格偏好。
- 通过构建AI-Brown和AI-Koditex语料库,并在英语和捷克语上进行实验,为LLM的风格评估提供基准。
📝 摘要(中文)
本研究调查了人类撰写文本与大型语言模型(LLM)生成的同类文本之间的语域变异。采用Biber的多维分析(MDA)方法,对人类撰写的文本样本和AI生成的对应文本进行分析,以找出LLM在哪些变异维度上与人类的差异最为显著和系统。文本材料方面,使用了一个新的LLM生成语料库AI-Brown,它与BE-21(代表当代英国英语的Brown家族语料库)具有可比性。由于除英语外的所有语言在主流LLM的训练数据中都代表性不足,因此使用AI-Koditex语料库和捷克语多维模型在捷克语上复制了类似的分析。研究了16个主流模型在各种设置和提示下的表现,重点关注了基础模型和指令微调模型之间的差异。在此基础上,创建了一个基准,通过该基准可以相互比较模型,并在可解释的维度上进行排名。
🔬 方法详解
问题定义:论文旨在量化和比较大型语言模型(LLM)生成的文本与人类撰写文本在文体上的差异。现有方法难以系统性地评估LLM在不同语域下的表现,缺乏可解释的风格基准。
核心思路:论文的核心思路是利用Biber的多维分析(MDA)方法,将文本的文体特征分解为多个维度,然后比较LLM生成文本和人类文本在这些维度上的得分差异。通过这种方式,可以识别LLM在哪些文体特征上与人类存在显著偏差。
技术框架:整体框架包括以下几个主要步骤:1) 构建LLM生成文本的语料库(AI-Brown和AI-Koditex);2) 对人类文本和LLM生成文本进行预处理和特征提取;3) 使用Biber的MDA方法,计算文本在各个文体维度上的得分;4) 比较LLM生成文本和人类文本在各个维度上的得分差异,并进行统计显著性检验;5) 基于分析结果,构建LLM风格基准。
关键创新:论文的关键创新在于:1) 系统性地将Biber的MDA方法应用于LLM生成文本的风格分析;2) 构建了两个新的LLM生成文本语料库(AI-Brown和AI-Koditex),为后续研究提供了数据基础;3) 提出了一个可解释的LLM风格基准,可以用于比较不同LLM的风格特征。与现有方法相比,该方法更加系统、客观,并且能够提供更细粒度的风格差异分析。
关键设计:论文的关键设计包括:1) 语料库的构建:AI-Brown语料库与BE-21语料库(Brown家族语料库)具有可比性,保证了实验的公平性;AI-Koditex语料库用于捷克语的分析,扩展了研究的语言范围。2) 模型选择:选择了16个主流LLM,包括基础模型和指令微调模型,可以比较不同类型模型的风格特征。3) 统计分析:使用了合适的统计方法(如t检验)来检验LLM生成文本和人类文本在各个维度上的得分差异是否具有统计显著性。
📊 实验亮点
研究发现,LLM在某些文体维度上与人类存在显著差异,例如,LLM生成的文本通常更加正式、客观,缺乏口语化的表达。指令微调模型在一定程度上可以缓解这些问题,但仍然存在改进空间。该研究构建的LLM风格基准可以用于量化这些差异,并为后续研究提供参考。
🎯 应用场景
该研究成果可应用于评估和改进LLM的文本生成能力,使其在不同应用场景下生成更符合人类习惯的文本。例如,在机器翻译、文本摘要、对话系统等领域,可以利用该基准来优化LLM的风格,提高生成文本的质量和用户体验。此外,该研究还可以帮助人们更好地理解LLM的局限性,并开发更有效的提示工程方法。
📄 摘要(原文)
This study investigates the register variation in texts written by humans and comparable texts produced by large language models (LLMs). Biber's multidimensional analysis (MDA) is applied to a sample of human-written texts and AI-created texts generated to be their counterparts to find the dimensions of variation in which LLMs differ most significantly and most systematically from humans. As textual material, a new LLM-generated corpus AI-Brown is used, which is comparable to BE-21 (a Brown family corpus representing contemporary British English). Since all languages except English are underrepresented in the training data of frontier LLMs, similar analysis is replicated on Czech using AI-Koditex corpus and Czech multidimensional model. Examined were 16 frontier models in various settings and prompts, with emphasis placed on the difference between base models and instruction-tuned models. Based on this, a benchmark is created through which models can be compared with each other and ranked in interpretable dimensions.