QUDsim: Quantifying Discourse Similarities in LLM-Generated Text
作者: Ramya Namuduri, Yating Wu, Anshun Asher Zheng, Manya Wadhwa, Greg Durrett, Junyi Jessy Li
分类: cs.CL
发布日期: 2025-04-12 (更新: 2025-08-11)
备注: COLM 2025 Camera Ready
💡 一句话要点
提出QUDsim,量化LLM生成文本中基于篇章结构的相似性,揭示其重复性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本生成 篇章结构 相似性度量 讨论中的问题
📋 核心要点
- 现有相似性度量侧重于词汇和句法,无法有效捕捉LLM生成文本中存在的篇章结构重复性问题。
- 论文提出QUDsim,基于“讨论中的问题”理论,抽象篇章结构,量化篇章进展的差异。
- 实验表明,QUDsim能有效检测LLM生成文本中存在的篇章结构重复使用现象,且LLM的结构与人类作者存在差异。
📝 摘要(中文)
随着大型语言模型在各种写作任务中能力日益增强,其在生成独特和创造性内容方面的弱点成为一个主要缺陷。尽管LLM有能力生成涵盖不同主题的文本,但文本之间存在一种总体重复感,我们旨在通过相似性度量来形式化和量化这种重复性。文档之间的熟悉感源于底层篇章结构的持久性。然而,现有的依赖于词汇重叠和句法模式的相似性度量主要捕获的是$ extit{内容}$重叠,因此不适合检测$ extit{结构}$相似性。我们引入了一种基于“讨论中的问题”(Questions Under Discussion, QUD)和问题语义的语言学理论的抽象,以帮助量化篇章进展的差异。然后,我们使用这个框架构建$ extbf{QUDsim}$,一种可以检测文档之间篇章相似性的度量。使用QUDsim,我们发现LLM在样本中经常重复使用篇章结构(比人类更频繁),即使内容不同。此外,LLM不仅重复且结构统一,而且在它们使用的结构类型上也与人类作者不同。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)生成文本时存在的重复性问题。现有相似性度量方法主要依赖于词汇重叠和句法模式,只能捕捉内容上的相似性,而无法有效检测LLM在篇章结构上的重复使用。这种结构上的重复性是LLM生成内容缺乏新意和创造性的重要原因。
核心思路:论文的核心思路是利用“讨论中的问题”(Questions Under Discussion, QUD)理论来抽象和量化篇章结构。QUD理论认为,篇章的连贯性在于一系列问题的提出和解答。通过分析文本中隐含的QUD序列,可以捕捉到文本的篇章结构。因此,论文提出了一种基于QUD的相似性度量方法QUDsim,用于检测LLM生成文本中篇章结构的相似性。
技术框架:QUDsim的整体框架包括以下几个主要步骤:1) 文本解析:使用自然语言处理工具对文本进行解析,提取关键信息,例如句子、短语等。2) QUD推断:基于解析结果,推断文本中隐含的QUD序列。这通常需要利用问题语义和上下文信息。3) 相似性计算:计算不同文本的QUD序列之间的相似性。可以使用各种相似性度量方法,例如编辑距离、余弦相似度等。4) 相似性评估:对计算得到的相似性进行评估,判断文本在篇章结构上是否相似。
关键创新:论文最重要的技术创新点在于将QUD理论应用于LLM生成文本的相似性度量。与传统的基于词汇和句法的相似性度量方法相比,QUDsim能够更有效地捕捉篇章结构的相似性,从而更准确地评估LLM生成文本的重复性。此外,论文还提出了一种QUD推断方法,用于从文本中提取隐含的QUD序列。
关键设计:QUDsim的关键设计包括:1) QUD表示:如何有效地表示QUD。论文可能使用了向量表示或其他符号表示方法。2) QUD推断模型:用于从文本中推断QUD序列的模型。这可能是一个基于规则的模型,或者是一个基于机器学习的模型。3) 相似性度量函数:用于计算QUD序列之间相似性的函数。论文可能尝试了不同的相似性度量函数,并选择了效果最好的一个。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QUDsim能够有效检测LLM生成文本中存在的篇章结构重复使用现象。与人类作者相比,LLM更倾向于重复使用相同的篇章结构,即使内容不同。此外,LLM在使用的篇章结构类型上也与人类作者存在差异。这些发现揭示了LLM在生成文本方面的一些局限性,为改进LLM的生成能力提供了新的思路。
🎯 应用场景
QUDsim可用于评估和改进LLM生成文本的多样性和创造性。通过检测LLM生成文本中存在的篇章结构重复使用现象,可以帮助开发者设计更有效的训练方法和生成策略,从而提高LLM生成文本的质量。此外,QUDsim还可以应用于文本摘要、机器翻译等领域,用于评估生成文本的连贯性和流畅性。
📄 摘要(原文)
As large language models become increasingly capable at various writing tasks, their weakness at generating unique and creative content becomes a major liability. Although LLMs have the ability to generate text covering diverse topics, there is an overall sense of repetitiveness across texts that we aim to formalize and quantify via a similarity metric. The familiarity between documents arises from the persistence of underlying discourse structures. However, existing similarity metrics dependent on lexical overlap and syntactic patterns largely capture $\textit{content}$ overlap, thus making them unsuitable for detecting $\textit{structural}$ similarities. We introduce an abstraction based on linguistic theories in Questions Under Discussion (QUD) and question semantics to help quantify differences in discourse progression. We then use this framework to build $\textbf{QUDsim}$, a similarity metric that can detect discursive parallels between documents. Using QUDsim, we find that LLMs often reuse discourse structures (more so than humans) across samples, even when content differs. Furthermore, LLMs are not only repetitive and structurally uniform, but are also divergent from human authors in the types of structures they use.