Beemo: Benchmark of Expert-edited Machine-generated Outputs

作者: Ekaterina Artemova, Jason Lucas, Saranya Venkatraman, Jooyoung Lee, Sergei Tilga, Adaku Uchendu, Vladislav Mikhailov

分类: cs.CL

发布日期: 2024-11-06 (更新: 2025-03-17)

备注: Accepted to NAACL 2025

💡 一句话要点

Beemo：专家编辑的机器生成文本基准，用于评估多作者场景下的文本溯源。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器生成文本检测 多作者文本 人机协作 文本溯源 大型语言模型 基准数据集 专家编辑

📋 核心要点

现有MGT检测基准主要关注单作者文本，忽略了实际应用中常见的由人机协作完成的多作者文本场景。
Beemo基准包含人类撰写、LLM生成以及专家和LLM编辑的文本，旨在模拟真实世界的多作者文本创作过程。
实验表明，专家编辑的文本更难被MGT检测器识别，而LLM编辑的文本则容易被误判为机器生成。

📝 摘要（中文）

大型语言模型（LLM）的快速普及增加了机器生成文本（MGT）的数量，并模糊了各个领域中文本的作者身份。然而，现有的大多数MGT基准测试都包含单作者文本（人工撰写和机器生成）。这种传统设计未能捕捉到更实用的多作者场景，即用户为了自然流畅、连贯性和事实正确性而改进LLM的响应。本文介绍了专家编辑的机器生成输出基准（Beemo），其中包括6.5k篇由人类撰写、由十个指令微调LLM生成的文本，以及由专家针对各种用例（从创意写作到摘要）编辑的文本。Beemo还包含13.1k篇机器生成和LLM编辑的文本，从而可以在各种编辑类型中进行多样化的MGT检测评估。我们记录了Beemo的创建协议，并展示了在不同实验设置中对33种MGT检测器配置进行基准测试的结果。我们发现，基于专家的编辑可以逃避MGT检测，而LLM编辑的文本不太可能被识别为人工撰写。Beemo和所有材料均已公开。

🔬 方法详解

问题定义：现有机器生成文本（MGT）检测基准主要关注单作者文本，无法有效评估在人机协作场景下，经过人工编辑后的MGT的检测性能。实际应用中，用户通常会修改LLM生成的文本，以提高其质量、流畅性和准确性，这使得MGT检测更具挑战性。因此，需要一个能够反映真实世界多作者文本创作过程的基准数据集，以评估MGT检测器在更复杂场景下的性能。

核心思路：Beemo的核心思路是构建一个包含人类撰写、LLM生成以及经过专家和LLM编辑的文本的数据集，从而模拟真实世界中人机协作的文本创作过程。通过比较不同类型的文本在MGT检测器上的表现，可以评估MGT检测器在不同编辑程度下的鲁棒性，并分析不同编辑方式对MGT检测的影响。

技术框架：Beemo数据集的构建流程包括以下几个主要阶段：1) 收集人类撰写的文本；2) 使用多个指令微调的LLM生成文本；3) 聘请专家对LLM生成的文本进行编辑，以提高其质量和流畅性；4) 使用LLM对LLM生成的文本进行编辑；5) 将所有文本整合到Beemo数据集中，并提供相应的元数据，例如文本的作者身份、编辑类型等。

关键创新：Beemo的关键创新在于其对多作者文本创作过程的模拟，以及对专家编辑和LLM编辑的区分。通过引入专家编辑的文本，Beemo能够更真实地反映实际应用中人机协作的场景，并为MGT检测器的评估提供更具挑战性的测试用例。此外，Beemo还提供了LLM编辑的文本，可以用于研究不同编辑方式对MGT检测的影响。

关键设计：Beemo数据集包含6.5k篇人类撰写、LLM生成和专家编辑的文本，以及13.1k篇LLM生成和LLM编辑的文本。使用了十个指令微调的LLM来生成文本，涵盖了从创意写作到摘要等多种用例。专家编辑过程遵循严格的协议，以确保编辑质量和一致性。数据集公开可用，并提供了用于评估MGT检测器的脚本和工具。

🖼️ 关键图片

📊 实验亮点

实验结果表明，专家编辑的文本能够有效逃避现有的MGT检测器，这表明现有方法在处理人机协作文本时存在局限性。LLM编辑的文本更容易被误判为机器生成，这说明LLM编辑的痕迹更容易被检测到。Beemo数据集为MGT检测研究提供了一个新的基准，并为开发更有效的MGT检测方法提供了方向。

🎯 应用场景

Beemo数据集可用于评估和改进MGT检测技术，提高其在多作者场景下的鲁棒性。该数据集有助于开发更可靠的文本溯源方法，应用于学术诚信检测、虚假信息识别、版权保护等领域，从而维护健康的在线信息生态系统。未来，Beemo可以扩展到更多语言和领域，以适应不断发展的LLM技术。

📄 摘要（原文）

The rapid proliferation of large language models (LLMs) has increased the volume of machine-generated texts (MGTs) and blurred text authorship in various domains. However, most existing MGT benchmarks include single-author texts (human-written and machine-generated). This conventional design fails to capture more practical multi-author scenarios, where the user refines the LLM response for natural flow, coherence, and factual correctness. Our paper introduces the Benchmark of Expert-edited Machine-generated Outputs (Beemo), which includes 6.5k texts written by humans, generated by ten instruction-finetuned LLMs, and edited by experts for various use cases, ranging from creative writing to summarization. Beemo additionally comprises 13.1k machine-generated and LLM-edited texts, allowing for diverse MGT detection evaluation across various edit types. We document Beemo's creation protocol and present the results of benchmarking 33 configurations of MGT detectors in different experimental setups. We find that expert-based editing evades MGT detection, while LLM-edited texts are unlikely to be recognized as human-written. Beemo and all materials are publicly available.

Beemo: Benchmark of Expert-edited Machine-generated Outputs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理