AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

作者: Ximing Lu, Melanie Sclar, Skyler Hallinan, Niloofar Mireshghallah, Jiacheng Liu, Seungju Han, Allyson Ettinger, Liwei Jiang, Khyathi Chandu, Nouha Dziri, Yejin Choi

分类: cs.CL

发布日期: 2024-10-05 (更新: 2025-01-12)

💡 一句话要点

提出创造力指数以量化语言模型的创造力，通过系统地将机器文本归因于网络文本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 创造力指数 语言模型 文本生成 机器文本检测 动态规划 文本相似度

📋 核心要点

大型语言模型展现出一定的创造力，但其来源尚不明确，现有方法难以有效量化语言创造力。
论文提出创造力指数，通过衡量文本可从网络文本重建的程度来评估其创造力。
实验表明，人类作者的创造力指数高于LLM，且该指数可有效用于零样本机器文本检测。

📝 摘要（中文）

创造力长期以来被认为是人工智能难以模仿的人类智能的一个方面。然而，像ChatGPT这样的大型语言模型（LLM）的兴起，引发了关于人工智能是否能匹配甚至超越人类创造力的问题。我们提出了创造力指数（CREATIVITY INDEX），作为量化文本语言创造力的第一步，通过从网络上现有的文本片段重建文本。创造力指数的动机是，LLM看似非凡的创造力，很大程度上可能归因于网络上人类撰写的文本的创造力。为了高效地计算创造力指数，我们引入了DJ SEARCH，一种新颖的动态规划算法，可以搜索给定文档中的文本片段与网络上的逐字和近似逐字匹配。实验表明，专业人类作者的创造力指数平均比LLM高66.2%，并且对齐使LLM的创造力指数平均降低30.1%。此外，我们发现像海明威这样的杰出作家的创造力指数明显高于其他人类作家。最后，我们证明了创造力指数可以作为一个非常有效的零样本机器文本检测标准，超过了现有的最强的零样本系统DetectGPT，幅度高达30.2%，甚至在六个领域中的五个领域优于最强的监督系统GhostBuster。

🔬 方法详解

问题定义：论文旨在解决如何量化语言模型的创造力的问题。现有方法缺乏有效的指标来衡量语言模型的创造力，并且难以区分机器生成文本和人类创作文本。现有的文本检测方法依赖于监督学习或需要对模型进行扰动，泛化能力有限。

核心思路：论文的核心思路是，如果一段文本可以从现有的网络文本中重建，那么它的创造力就较低。反之，如果一段文本难以从网络文本中找到相似的片段，那么它的创造力就较高。因此，论文提出了创造力指数，通过衡量文本与网络文本的相似度来量化其创造力。

技术框架：整体框架包括以下几个主要步骤：1) 从给定的文本中提取文本片段；2) 使用DJ SEARCH算法在网络上搜索与这些文本片段相似的文本；3) 根据搜索结果计算创造力指数。DJ SEARCH算法是一个动态规划算法，用于高效地搜索文本片段的逐字和近似逐字匹配。创造力指数的计算方式是基于文本片段与网络文本的相似度得分。

关键创新：论文的关键创新在于提出了创造力指数这一概念，并设计了DJ SEARCH算法来高效地计算该指数。与现有方法相比，创造力指数不需要对模型进行扰动，也不需要监督学习，因此具有更好的泛化能力。DJ SEARCH算法通过动态规划的方式，显著提高了搜索效率。

关键设计：DJ SEARCH算法使用动态规划来寻找最佳的文本片段匹配。算法的关键在于定义一个合适的相似度函数，用于衡量文本片段之间的相似度。论文中使用了多种相似度函数，包括逐字匹配和近似逐字匹配。创造力指数的计算方式是基于文本片段与网络文本的相似度得分，并进行归一化处理。

🖼️ 关键图片

📊 实验亮点

实验结果表明，专业人类作者的创造力指数平均比LLM高66.2%，对齐操作会降低LLM的创造力指数30.1%。创造力指数在零样本机器文本检测任务中，超越了DetectGPT 30.2%，并在六个领域中的五个领域优于监督系统GhostBuster。

🎯 应用场景

该研究成果可应用于评估和提升语言模型的创造力，区分机器生成文本和人类创作文本，以及检测AI生成内容的真实性。此外，该方法还可以用于分析不同作者的写作风格，并识别具有高度创造性的文本。

📄 摘要（原文）

Creativity has long been considered one of the most difficult aspect of human intelligence for AI to mimic. However, the rise of Large Language Models (LLMs), like ChatGPT, has raised questions about whether AI can match or even surpass human creativity. We present CREATIVITY INDEX as the first step to quantify the linguistic creativity of a text by reconstructing it from existing text snippets on the web. CREATIVITY INDEX is motivated by the hypothesis that the seemingly remarkable creativity of LLMs may be attributable in large part to the creativity of human-written texts on the web. To compute CREATIVITY INDEX efficiently, we introduce DJ SEARCH, a novel dynamic programming algorithm that can search verbatim and near-verbatim matches of text snippets from a given document against the web. Experiments reveal that the CREATIVITY INDEX of professional human authors is on average 66.2% higher than that of LLMs, and that alignment reduces the CREATIVITY INDEX of LLMs by an average of 30.1%. In addition, we find that distinguished authors like Hemingway exhibit measurably higher CREATIVITY INDEX compared to other human writers. Finally, we demonstrate that CREATIVITY INDEX can be used as a surprisingly effective criterion for zero-shot machine text detection, surpassing the strongest existing zero-shot system, DetectGPT, by a significant margin of 30.2%, and even outperforming the strongest supervised system, GhostBuster, in five out of six domains.

AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理