Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers
作者: Mingmeng Geng, Yuhang Dong, Thierry Poibeau
分类: cs.CL, cs.AI, cs.CY, cs.DL, cs.LG
发布日期: 2026-03-26
备注: Visualization of word usage patterns in arXiv abstracts: https://llm-impact.github.io/word-usage-arxiv-abstract/
💡 一句话要点
分析大型语言模型对学术论文的影响,揭示词汇使用模式的转变。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 学术论文 词汇使用分析 自然语言处理 文本生成
📋 核心要点
- 现有方法难以准确识别学术论文中由特定LLM生成的文本,这是由于不同LLM之间存在相似性。
- 论文采用线性方法,考虑模型和提示的差异,定量评估LLM对学术论文词汇使用的影响。
- 实验表明,LLM的使用导致学术论文中词汇使用模式发生转变,且LLM的使用是异构和动态的。
📝 摘要(中文)
本文通过分析arXiv上的论文,报告了可能由大型语言模型(LLM)驱动的词汇使用方面的若干转变,这些转变之前未受到充分关注。例如,标题中“beyond”和“via”的频率增加,而摘要中“the”和“of”的频率降低。由于不同LLM之间的相似性,实验表明,当前的分类器难以准确确定哪个特定模型生成了给定的文本(多类分类任务)。同时,LLM之间的差异也导致学术论文中词汇使用模式的演变。通过采用直接且高度可解释的线性方法,并考虑模型和提示之间的差异,我们定量评估了这些影响,并表明现实世界中LLM的使用是异构且动态的。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)对学术论文写作风格和词汇使用的影响。现有方法难以准确区分不同LLM生成的文本,并且缺乏对LLM使用模式的量化分析。现有方法没有充分考虑不同LLM以及不同prompt对生成文本的影响。
核心思路:论文的核心思路是通过分析arXiv论文中词汇使用频率的变化,来推断LLM对学术写作的影响。通过构建线性模型,量化不同LLM和prompt对词汇使用的影响,从而揭示LLM在学术写作中的使用模式。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:从arXiv收集大量的学术论文数据。2) 词汇频率分析:统计论文标题和摘要中特定词汇(如“beyond”、“via”、“the”、“of”)的频率。3) LLM文本生成:使用不同的LLM和prompt生成文本。4) 模型训练与评估:训练线性模型,量化LLM和prompt对词汇使用的影响。5) 结果分析:分析模型结果,揭示LLM在学术写作中的使用模式。
关键创新:论文的关键创新在于:1) 首次关注并量化了LLM对学术论文写作风格和词汇使用的影响。2) 提出了一种直接且高度可解释的线性方法,用于量化不同LLM和prompt对词汇使用的影响。3) 揭示了现实世界中LLM的使用是异构且动态的。
关键设计:论文的关键设计包括:1) 选择具有代表性的词汇(如“beyond”、“via”、“the”、“of”)进行频率分析。2) 使用不同的LLM(具体模型未知)和prompt生成文本,以模拟真实场景。3) 构建线性模型,将词汇频率作为输入,LLM和prompt作为特征,量化它们对词汇使用的影响。4) 采用适当的评估指标(具体指标未知)来评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的使用导致学术论文标题中“beyond”和“via”等词汇的频率增加,而摘要中“the”和“of”等词汇的频率降低。同时,实验还表明,当前的分类器难以准确区分不同LLM生成的文本,表明不同LLM之间存在相似性。通过线性模型,论文量化了不同LLM和prompt对词汇使用的影响,表明现实世界中LLM的使用是异构且动态的。(具体性能数据未知)
🎯 应用场景
该研究可应用于学术出版领域的规范制定,帮助识别和控制LLM在学术写作中的不当使用,维护学术诚信。此外,该研究结果可用于开发辅助写作工具,帮助研究人员更好地利用LLM提高写作效率,同时避免过度依赖LLM导致写作风格的同质化。
📄 摘要(原文)
Through an analysis of arXiv papers, we report several shifts in word usage that are likely driven by large language models (LLMs) but have not previously received sufficient attention, such as the increased frequency of "beyond" and "via" in titles and the decreased frequency of "the" and "of" in abstracts. Due to the similarities among different LLMs, experiments show that current classifiers struggle to accurately determine which specific model generated a given text in multi-class classification tasks. Meanwhile, variations across LLMs also result in evolving patterns of word usage in academic papers. By adopting a direct and highly interpretable linear approach and accounting for differences between models and prompts, we quantitatively assess these effects and show that real-world LLM usage is heterogeneous and dynamic.