Do LLMs produce texts with "human-like" lexical diversity?
作者: Kelly Kendro, Jeffrey Maloney, Scott Jarvis
分类: cs.CL
发布日期: 2025-07-31 (更新: 2025-11-21)
💡 一句话要点
研究表明大型语言模型生成的文本在词汇多样性方面与人类写作存在显著差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 词汇多样性 文本生成 ChatGPT 自然语言处理
📋 核心要点
- 现有研究对LLM生成文本是否具备人类写作的词汇多样性特征尚不明确,缺乏深入对比分析。
- 本研究通过对比LLM与人类写作文本的六个词汇多样性维度,评估LLM的文本生成能力。
- 实验结果表明,ChatGPT模型在词汇多样性上与人类写作存在显著差异,且新模型更甚。
📝 摘要(中文)
尽管对大型语言模型(LLMs)生成文本是否真正像人类写作这一问题进行了广泛的实证研究,但其程度仍不清楚。本研究从词汇多样性的角度探讨了这个问题。具体而言,本研究比较了来自四个ChatGPT模型(ChatGPT-3.5、ChatGPT-4、ChatGPT-o4 mini和ChatGPT-4.5)生成的文本与L1和L2英语参与者(n = 240)在四个教育水平下撰写的文本的词汇多样性模式。测量了每个文本的六个词汇多样性维度:容量、丰度、变异-重复、均匀性、差异性和离散度。单因素MANOVA、单因素ANOVA和支持向量机的结果表明,ChatGPT生成的文本在每个变量上与人类撰写的文本存在显著差异,其中ChatGPT-o4 mini和ChatGPT-4.5的差异最大。在这两个组中,ChatGPT-4.5尽管产生的token较少,但表现出比旧模型更高的词汇多样性。人类作者的词汇多样性在各个亚组(即教育程度、语言状态)之间没有差异。总而言之,结果表明ChatGPT模型在词汇多样性方面没有产生类似人类的文本,并且较新的模型产生的不如旧模型那样像人类的文本。我们讨论了这些结果对语言教学和相关应用的影响。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)生成的文本在词汇多样性方面是否与人类写作相似。现有方法缺乏对LLM生成文本词汇多样性的深入分析,无法准确判断其“类人”程度。现有评估方法可能过于主观或侧重于其他语言特征,忽略了词汇使用的丰富性和变化。
核心思路:论文的核心思路是通过量化LLM生成文本和人类写作文本的词汇多样性,并进行统计比较,从而客观评估LLM的文本生成能力。通过选取多个词汇多样性维度,可以更全面地了解LLM在词汇使用方面的特点。选择不同版本的ChatGPT模型和不同教育水平的人类作者,可以增加研究的代表性和泛化性。
技术框架:该研究的技术框架主要包括以下几个步骤: 1. 数据收集:收集来自不同ChatGPT模型(ChatGPT-3.5、ChatGPT-4、ChatGPT-o4 mini和ChatGPT-4.5)生成的文本,以及来自不同教育水平的L1和L2英语参与者撰写的文本。 2. 词汇多样性测量:使用六个维度(容量、丰度、变异-重复、均匀性、差异性和离散度)来量化每个文本的词汇多样性。 3. 统计分析:使用单因素MANOVA、单因素ANOVA和支持向量机等统计方法,比较LLM生成文本和人类写作文本在各个词汇多样性维度上的差异。 4. 结果分析:分析统计结果,得出关于LLM生成文本是否具有人类词汇多样性的结论。
关键创新:该研究的关键创新在于: 1. 多维度词汇多样性分析:使用了六个不同的维度来量化词汇多样性,从而更全面地评估LLM的文本生成能力。 2. 对比不同版本的ChatGPT模型:比较了不同版本的ChatGPT模型(包括较新的ChatGPT-4.5)的词汇多样性,从而了解LLM的发展趋势。 3. 与人类写作进行对比:将LLM生成文本与人类写作文本进行直接对比,从而更客观地评估LLM的“类人”程度。
关键设计: 1. 词汇多样性维度选择:选择了容量、丰度、变异-重复、均匀性、差异性和离散度这六个维度,这些维度能够较好地反映词汇使用的不同方面。 2. 统计方法选择:选择了单因素MANOVA、单因素ANOVA和支持向量机等统计方法,这些方法能够有效地比较不同组别之间的差异。 3. 模型参数设置:论文中没有明确说明ChatGPT模型的具体参数设置,这部分信息未知。
📊 实验亮点
实验结果表明,ChatGPT生成的文本在所有六个词汇多样性维度上都与人类写作存在显著差异。值得注意的是,较新的ChatGPT-4.5模型虽然生成的token较少,但词汇多样性反而高于旧模型,但与人类写作的差距也更大。人类作者的词汇多样性在不同教育程度和语言水平的亚组之间没有显著差异。
🎯 应用场景
该研究结果对语言教学具有重要意义,可以帮助教师了解LLM生成文本的特点,并针对性地设计教学内容。此外,该研究还可以应用于自动文本评估、机器翻译等领域,提高相关技术的质量和可靠性。未来,可以进一步研究如何提高LLM生成文本的词汇多样性,使其更接近人类写作。
📄 摘要(原文)
The degree to which large language models (LLMs) produce writing that is truly human-like remains unclear despite the extensive empirical attention that this question has received. The present study addresses this question from the perspective of lexical diversity. Specifically, the study investigates patterns of lexical diversity in LLM-generated texts from four ChatGPT models (ChatGPT-3.5, ChatGPT-4, ChatGPT-o4 mini, and ChatGPT-4.5) in comparison with texts written by L1 and L2 English participants (n = 240) across four education levels. Six dimensions of lexical diversity were measured in each text: volume, abundance, variety-repetition, evenness, disparity, and dispersion. Results from one-way MANOVAs, one-way ANOVAs, and Support Vector Machines revealed that the ChatGPT-generated texts differed significantly from human-written texts for each variable, with ChatGPT-o4 mini and ChatGPT-4.5 differing the most. Within these two groups, ChatGPT-4.5 demonstrated higher levels of lexical diversity than older models despite producing fewer tokens. The human writers' lexical diversity did not differ across subgroups (i.e., education, language status). Altogether, the results indicate that ChatGPT models do not produce human-like texts in relation to lexical diversity, and the newer models produce less human-like text than older models. We discuss the implications of these results for language pedagogy and related applications.