Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges
作者: Misam Abbas
分类: cs.CL
发布日期: 2025-10-14
备注: Accepted for publication at the 2025 IEEE ICDM Workshop on "Grounding Documents with Reasoning, Agents, Retrieval, and Attribution". This is author submitted version. Not yet published
💡 一句话要点
对比风格嵌入和LLM判别器,评估AI生成内容归属质量并构建基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成内容 作者归属 风格嵌入 LLM判别器 基准测试 混合策略 内容溯源
📋 核心要点
- 现有方法在区分人类和AI生成内容方面面临挑战,尤其是在风格和语义复杂性不断提高的情况下。
- 论文提出使用风格嵌入和LLM判别器两种互补方法,结合结构和语义信息进行作者归属。
- 实验表明,风格嵌入在结构化文本中表现更好,而LLM判别器在语义丰富的文本中更优,突出了混合策略的必要性。
📝 摘要(中文)
随着机器生成文本与人类写作水平日益接近,在大语言模型(LLM)时代进行作者归属变得越来越具有挑战性。本文对两种互补的归属机制进行了基准测试:固定的风格嵌入和指令调优的LLM判别器(GPT-4o)。测试基于Human AI Parallel Corpus,这是一个包含600个平衡实例的开放数据集,涵盖六个领域(学术、新闻、小说、博客、口语记录和电视/电影剧本)。每个实例包含一个人为提示,以及来自GPT-4o或LLaMA-70B-Instruct的黄金延续和LLM生成的延续。风格嵌入基线在GPT延续上实现了更强的总体准确率(82% vs. 68%)。LLM判别器在LLaMA延续上略优于风格嵌入(85% vs. 81%),但结果在统计上不显著。重要的是,LLM判别器在小说和学术散文中明显优于风格嵌入,表明其具有语义敏感性,而风格嵌入在口语和剧本对话中占主导地位,反映了其结构优势。这些互补模式表明,归属是一个需要混合策略的多维问题。为了支持可重复性,我们在GitHub上提供了代码,并在MIT许可下在Hugging Face上提供了派生数据。这个开放框架为AI生成内容中的归属质量评估提供了一个可重复的基准,并回顾了影响这项工作的相关文献。
🔬 方法详解
问题定义:论文旨在解决AI生成内容作者归属问题,即判断一段文本是由人类还是由特定LLM生成的。现有方法,如单纯依赖风格或语义特征,在面对复杂和高质量的AI生成文本时,准确率不足,难以有效区分不同来源的内容。
核心思路:论文的核心思路是结合两种互补的归属机制:风格嵌入和LLM判别器。风格嵌入侧重于捕捉文本的结构和风格特征,而LLM判别器则侧重于理解文本的语义内容。通过结合这两种方法,可以更全面地分析文本,提高作者归属的准确率。这样设计的目的是利用各自的优势,弥补单一方法的不足。
技术框架:整体框架包括两个主要模块:风格嵌入模块和LLM判别器模块。风格嵌入模块使用预训练的语言模型提取文本的风格特征,并将其表示为向量。LLM判别器模块使用指令调优的LLM(如GPT-4o)对文本进行评估,判断其来源。最终,结合两个模块的输出,做出作者归属的判断。
关键创新:论文的关键创新在于提出了一个混合的归属框架,结合了风格嵌入和LLM判别器两种互补的方法。这种混合方法能够更全面地分析文本,提高作者归属的准确率。此外,论文还构建了一个可重复的基准,用于评估AI生成内容中的归属质量。
关键设计:风格嵌入模块使用了预训练的语言模型(具体模型未知)提取文本的风格特征。LLM判别器模块使用了指令调优的GPT-4o,通过特定的prompt工程来引导其进行作者归属判断。具体的损失函数和网络结构细节在论文中未详细描述,属于未知信息。
📊 实验亮点
实验结果表明,风格嵌入在GPT延续上实现了82%的准确率,优于LLM判别器的68%。LLM判别器在LLaMA延续上略优于风格嵌入(85% vs. 81%),但差异不显著。重要的是,LLM判别器在小说和学术散文中明显优于风格嵌入,而风格嵌入在口语和剧本对话中表现更好,验证了混合策略的有效性。
🎯 应用场景
该研究成果可应用于内容溯源、版权保护、虚假信息检测等领域。通过准确识别AI生成内容,可以帮助维护网络信息的真实性和可靠性,防止恶意利用AI生成内容进行欺诈或传播不实信息。未来,该技术可进一步发展为自动化的内容审核工具,提高内容监管效率。
📄 摘要(原文)
Attributing authorship in the era of large language models (LLMs) is increasingly challenging as machine-generated prose rivals human writing. We benchmark two complementary attribution mechanisms , fixed Style Embeddings and an instruction-tuned LLM judge (GPT-4o) on the Human AI Parallel Corpus, an open dataset of 600 balanced instances spanning six domains (academic, news, fiction, blogs, spoken transcripts, and TV/movie scripts). Each instance contains a human prompt with both a gold continuation and an LLM-generated continuation from either GPT-4o or LLaMA-70B-Instruct. The Style Embedding baseline achieves stronger aggregate accuracy on GPT continuations (82 pct vs. 68 pct). The LLM Judge is slightly better than the Style embeddings on LLaMA continuations (85 pct vs. 81 pct) but the results are not statistically significant. Crucially, the LLM judge significantly outperforms in fiction and academic prose, indicating semantic sensitivity, whereas embeddings dominate in spoken and scripted dialogue, reflecting structural strengths. These complementary patterns highlight attribution as a multidimensional problem requiring hybrid strategies. To support reproducibility we provide code on GitHub and derived data on Hugging Face under the MIT license. This open framework provides a reproducible benchmark for attribution quality assessment in AI-generated content, along with a review of related literature influencing this work.