Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications

📄 arXiv: 2509.10248v3 📥 PDF

作者: Janis Keuper

分类: cs.LG

发布日期: 2025-09-12 (更新: 2025-09-25)


💡 一句话要点

揭示LLM生成论文评审中的Prompt注入攻击可行性及影响

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: LLM评审 Prompt注入攻击 同行评审 人工智能安全 论文评审

📋 核心要点

  1. 当前关于LLM在同行评审中应用的讨论中,出现了作者利用隐藏Prompt注入操纵评审分数的报告,这引发了对评审公正性的担忧。
  2. 该研究通过系统评估LLM生成的论文评审,旨在验证Prompt注入攻击的可行性,并分析LLM评审是否存在固有的偏见。
  3. 实验结果表明,简单的Prompt注入攻击能够显著影响LLM的评审结果,且LLM评审普遍存在接受偏见,这为LLM在评审中的应用敲响了警钟。

📝 摘要(中文)

本文深入研究了利用Prompt注入攻击操纵LLM生成论文评审分数的可能性。作者通过对LLM生成的1000篇ICLR 2024论文评审进行系统评估,发现:1) 简单的Prompt注入攻击非常有效,最高可使论文接受率达到100%;2) LLM评审普遍存在接受偏好(在许多模型中>95%)。这两个发现对当前关于LLM在同行评审中使用的讨论具有重大影响。

🔬 方法详解

问题定义:论文旨在研究在LLM生成的科学论文评审中,Prompt注入攻击是否可行以及其影响程度。现有方法缺乏对这种攻击方式的系统性评估,无法量化其对评审结果的影响,同时也忽略了LLM本身可能存在的评审偏见。

核心思路:论文的核心思路是通过设计一系列Prompt注入攻击,并将其嵌入到待评审的论文中,然后利用不同的LLM生成评审意见,分析攻击成功率以及LLM的评审偏好。通过对比有无攻击的评审结果,量化Prompt注入攻击的影响。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集ICLR 2024论文作为评审对象;2) 设计不同类型的Prompt注入攻击,例如要求LLM给出高分或推荐接受论文;3) 使用多种LLM(具体模型未知)生成对论文的评审意见;4) 分析评审结果,包括接受率、分数等指标,评估Prompt注入攻击的有效性;5) 统计LLM的评审偏好,例如接受率的分布情况。

关键创新:该研究的关键创新在于首次系统性地评估了Prompt注入攻击对LLM生成论文评审的影响,并揭示了LLM评审中普遍存在的接受偏见。这为后续研究如何防御此类攻击以及如何设计更公正的LLM评审系统提供了重要的参考。

关键设计:论文的关键设计包括Prompt注入攻击的具体形式(未知,但提到是非常简单的形式),以及用于评估攻击效果和LLM偏好的指标。由于摘要中没有提供具体的参数设置、损失函数或网络结构等细节,因此这部分信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,简单的Prompt注入攻击能够显著提高论文的接受率,最高可达100%。同时,研究发现LLM评审普遍存在接受偏见,在许多模型中,接受率超过95%。这些数据清晰地揭示了Prompt注入攻击的威胁以及LLM评审的潜在问题。

🎯 应用场景

该研究成果对学术出版领域具有重要意义,可用于指导LLM评审系统的设计,提高评审的公正性和可靠性。同时,该研究也提醒研究人员关注Prompt注入攻击的潜在风险,并开发相应的防御机制。此外,该研究方法可以推广到其他LLM应用场景,例如内容生成、对话系统等,以评估和缓解Prompt注入攻击的影响。

📄 摘要(原文)

The ongoing intense discussion on rising LLM usage in the scientific peer-review process has recently been mingled by reports of authors using hidden prompt injections to manipulate review scores. Since the existence of such "attacks" - although seen by some commentators as "self-defense" - would have a great impact on the further debate, this paper investigates the practicability and technical success of the described manipulations. Our systematic evaluation uses 1k reviews of 2024 ICLR papers generated by a wide range of LLMs shows two distinct results: I) very simple prompt injections are indeed highly effective, reaching up to 100% acceptance scores. II) LLM reviews are generally biased toward acceptance (>95% in many models). Both results have great impact on the ongoing discussions on LLM usage in peer-review.