Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models

📄 arXiv: 2507.13614v3 📥 PDF

作者: Sergio E. Zanotto, Segun Aroyehun

分类: cs.CL, cs.AI

发布日期: 2025-07-18 (更新: 2025-09-30)

备注: arXiv admin note: text overlap with arXiv:2412.03025

期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025)


💡 一句话要点

通过语言特征和嵌入分析区分人类与大型语言模型生成的文本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本分析 语言特征 风格嵌入 文本分类

📋 核心要点

  1. 现有方法难以有效区分人类与LLM生成的文本,尤其是在LLM生成能力日益增强的情况下。
  2. 本研究通过分析文本的语言特征(形态、句法、语义)和风格嵌入,来区分并表征人类与LLM生成的文本。
  3. 实验结果表明,人类文本句法更简单,语义更多样,且风格变异性更大,而新模型生成的文本风格趋于同质化。

📝 摘要(中文)

大型语言模型(LLM)的快速发展显著提高了其生成自然语言的能力,使得LLM生成的文本越来越难以与人类书写的文本区分。虽然最近的研究主要集中在使用LLM将文本分类为人类书写或机器生成,但我们的研究侧重于使用一组跨不同语言层面的语言特征(如形态学、句法和语义)来表征这些文本。我们选择了一个包含8个领域和11个不同LLM生成的,由人类书写和机器生成的文本数据集。我们计算了不同的语言特征,如依存关系长度和情感性,并将它们用于表征人类书写和机器生成的文本,以及不同的采样策略、重复控制和模型发布日期。我们的统计分析表明,人类书写的文本倾向于表现出更简单的句法结构和更多样化的语义内容。此外,我们计算了我们的特征集在模型和领域之间的变异性。人类和机器生成的文本都显示出跨领域的文体多样性,而人类书写的文本在我们的特征中显示出更大的变异性。最后,我们应用风格嵌入来进一步测试人类书写和机器生成文本之间的变异性。值得注意的是,较新的模型输出的文本具有相似的变异性,这表明机器生成的文本正在同质化。

🔬 方法详解

问题定义:论文旨在解决如何有效区分人类撰写和大型语言模型(LLM)生成的文本的问题。现有方法主要集中于将文本二元分类,缺乏对两类文本在语言学层面的深入刻画。此外,随着LLM的快速发展,其生成文本的能力不断提升,使得区分难度越来越大。

核心思路:论文的核心思路是通过提取和分析文本的多种语言学特征(包括形态、句法和语义层面)以及风格嵌入,来建立人类撰写和LLM生成文本的特征差异。通过统计分析这些特征的分布和变异性,从而实现更准确的区分和表征。

技术框架:论文的技术框架主要包含以下几个阶段:1) 数据收集:构建包含人类撰写和由11个不同LLM生成的文本数据集,涵盖8个领域。2) 特征提取:计算文本的多种语言学特征,如依存关系长度、情感性等。3) 统计分析:对提取的特征进行统计分析,比较人类和LLM生成文本在不同特征上的分布差异和变异性。4) 风格嵌入:使用风格嵌入进一步测试人类和机器生成文本之间的变异性。

关键创新:论文的关键创新在于:1) 采用多层面的语言学特征进行分析,而不仅仅是依赖于二元分类。2) 关注不同LLM和领域之间的变异性,揭示了LLM生成文本的同质化趋势。3) 结合统计分析和风格嵌入,提供了更全面的文本表征方法。

关键设计:论文的关键设计包括:1) 选择具有代表性的语言学特征,覆盖形态、句法和语义层面。2) 构建包含多个LLM和领域的数据集,以保证分析的泛化性。3) 采用合适的统计方法(如方差分析)来比较不同组别之间的差异。4) 使用预训练的风格嵌入模型来捕捉文本的风格信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,人类文本在句法结构上更简单,语义内容上更多样,且风格变异性更大。统计分析显示,较新的LLM模型输出的文本具有相似的变异性,表明机器生成的文本风格趋于同质化。这些发现为区分人类和机器生成文本提供了有力的证据。

🎯 应用场景

该研究成果可应用于检测AI生成内容,防止虚假信息传播,并帮助识别和区分不同来源的文本。此外,该研究可以促进对LLM生成文本的理解,并为改进LLM的文本生成能力提供指导,例如,鼓励生成更多样化的文本风格。

📄 摘要(原文)

The rapid advancements in large language models (LLMs) have significantly improved their ability to generate natural language, making texts generated by LLMs increasingly indistinguishable from human-written texts. While recent research has primarily focused on using LLMs to classify text as either human-written or machine-generated texts, our study focuses on characterizing these texts using a set of linguistic features across different linguistic levels such as morphology, syntax, and semantics. We select a dataset of human-written and machine-generated texts spanning 8 domains and produced by 11 different LLMs. We calculate different linguistic features such as dependency length and emotionality, and we use them for characterizing human-written and machine-generated texts along with different sampling strategies, repetition controls, and model release dates. Our statistical analysis reveals that human-written texts tend to exhibit simpler syntactic structures and more diverse semantic content. Furthermore, we calculate the variability of our set of features across models and domains. Both human- and machine-generated texts show stylistic diversity across domains, with human-written texts displaying greater variation in our features. Finally, we apply style embeddings to further test variability among human-written and machine-generated texts. Notably, newer models output text that is similarly variable, pointing to a homogenization of machine-generated texts.