Detecting LLM-Generated Peer Reviews
作者: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah
分类: cs.DL, cs.AI, cs.CR
发布日期: 2025-03-20 (更新: 2025-05-19)
备注: 27 pages, 2 figures
💡 一句话要点
提出一种基于隐蔽水印的LLM生成同行评审检测框架,提升检测可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM检测 同行评审 隐蔽水印 间接提示注入 统计假设检验
📋 核心要点
- 同行评审面临LLM生成内容的威胁,现有检测工具难以区分AI辅助润色和完全生成的评审。
- 论文提出一种基于隐蔽水印的检测方法,通过间接提示注入,使LLM在生成评审时嵌入可检测的水印。
- 实验表明,该方法在多种LLM和防御策略下具有较高的水印嵌入成功率和检测准确性,优于Bonferroni校正。
📝 摘要(中文)
同行评审的完整性是科学进步的基石,但大型语言模型(LLM)的兴起引发了人们的担忧,即一些评审者可能依赖这些工具来生成评审,而不是独立撰写。尽管一些场所已经禁止LLM辅助评审,但由于现有的检测工具无法可靠地区分完全生成的评审和仅用AI润色的评审,因此执行仍然很困难。本文旨在解决检测LLM生成评审的挑战。我们考虑通过论文PDF执行间接提示注入的方法,提示LLM在生成的评审中嵌入隐蔽水印,并随后测试评审中是否存在水印。我们识别并解决了这种方法的简单实现中的几个缺陷。我们的主要贡献是一个严格的水印和检测框架,提供强大的统计保证。具体来说,我们引入了水印方案和假设检验,以控制多个评审中的族错误率,从而实现比Bonferroni等标准校正更高的统计功效,同时不对人工撰写的评审的性质做出任何假设。我们探索了多种间接提示注入策略——包括基于字体的嵌入和混淆的提示——并评估了它们在各种评审者防御场景下的有效性。我们的实验发现,各种LLM的水印嵌入成功率很高。我们还通过实验发现,我们的方法对常见的评审者防御具有弹性,并且我们的统计测试中的错误率界限在实践中成立。相比之下,我们发现Bonferroni式校正在这种设置中过于保守而无用。
🔬 方法详解
问题定义:当前同行评审面临着LLM生成内容的威胁,评审者可能使用LLM生成或润色评审意见,导致评审质量下降。现有的检测方法无法有效区分完全由LLM生成的评审和人工撰写后经LLM润色的评审,难以有效监管和维护评审的公正性。
核心思路:论文的核心思路是通过间接提示注入,诱导LLM在生成评审意见时嵌入预先设定的隐蔽水印。具体来说,通过修改论文PDF的内容(例如字体、排版等),向LLM传递特定的提示,使其在生成的文本中包含特定的模式,从而实现水印的嵌入。检测时,通过分析评审意见中是否存在这些模式来判断是否由LLM生成。
技术框架:该框架主要包含两个阶段:水印嵌入阶段和水印检测阶段。在水印嵌入阶段,首先对论文PDF进行处理,嵌入间接提示。然后,评审者使用LLM阅读该PDF并生成评审意见,LLM在生成过程中会受到间接提示的影响,将水印嵌入到评审意见中。在水印检测阶段,使用预先设定的检测算法分析评审意见,判断其中是否存在水印。如果检测到水印,则认为该评审意见是由LLM生成的。
关键创新:该方法的核心创新在于使用间接提示注入的方式嵌入水印,避免了直接修改LLM的生成过程,具有更好的隐蔽性和通用性。此外,论文还提出了一种基于统计假设检验的水印检测方法,能够控制族错误率,提高检测的可靠性。
关键设计:论文探索了多种间接提示注入策略,包括基于字体的嵌入和混淆的提示。基于字体的嵌入通过修改PDF中特定词语的字体来实现提示的嵌入。混淆的提示则使用一些难以察觉的文本变换来传递提示信息。在水印检测方面,论文设计了一种基于似然比检验的统计方法,用于判断评审意见中是否存在水印。该方法能够控制族错误率,避免因多次检验而导致的误判。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多种LLM(包括GPT-3.5、GPT-4等)上具有较高的水印嵌入成功率。即使在评审者采取防御措施(例如修改LLM的生成参数、使用不同的LLM等)的情况下,该方法仍然能够有效地检测到水印。此外,论文提出的统计假设检验方法能够有效控制族错误率,优于传统的Bonferroni校正。
🎯 应用场景
该研究成果可应用于学术出版、基金申请等领域的同行评审过程,用于检测和防止LLM生成或辅助生成的评审意见,维护评审的公正性和质量。此外,该技术还可以扩展到其他文本生成场景,例如新闻报道、产品评论等,用于识别和防范AI生成内容的滥用。
📄 摘要(原文)
The integrity of peer review is fundamental to scientific progress, but the rise of large language models (LLMs) has introduced concerns that some reviewers may rely on these tools to generate reviews rather than writing them independently. Although some venues have banned LLM-assisted reviewing, enforcement remains difficult as existing detection tools cannot reliably distinguish between fully generated reviews and those merely polished with AI assistance. In this work, we address the challenge of detecting LLM-generated reviews. We consider the approach of performing indirect prompt injection via the paper's PDF, prompting the LLM to embed a covert watermark in the generated review, and subsequently testing for presence of the watermark in the review. We identify and address several pitfalls in naïve implementations of this approach. Our primary contribution is a rigorous watermarking and detection framework that offers strong statistical guarantees. Specifically, we introduce watermarking schemes and hypothesis tests that control the family-wise error rate across multiple reviews, achieving higher statistical power than standard corrections such as Bonferroni, while making no assumptions about the nature of human-written reviews. We explore multiple indirect prompt injection strategies--including font-based embedding and obfuscated prompts--and evaluate their effectiveness under various reviewer defense scenarios. Our experiments find high success rates in watermark embedding across various LLMs. We also empirically find that our approach is resilient to common reviewer defenses, and that the bounds on error rates in our statistical tests hold in practice. In contrast, we find that Bonferroni-style corrections are too conservative to be useful in this setting.