Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications

作者: Janis Keuper

分类: cs.LG

发布日期: 2025-09-12 (更新: 2025-09-25)

💡 一句话要点

揭示LLM生成论文评审中的Prompt注入攻击可行性及影响

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: LLM评审 Prompt注入攻击 同行评审 人工智能安全 论文评审

📋 核心要点

当前关于LLM在同行评审中应用的讨论中，出现了作者利用隐藏Prompt注入操纵评审分数的报告，这引发了对评审公正性的担忧。
该研究通过系统评估LLM生成的论文评审，旨在验证Prompt注入攻击的可行性，并分析LLM评审是否存在固有的偏见。
实验结果表明，简单的Prompt注入攻击能够显著影响LLM的评审结果，且LLM评审普遍存在接受偏见，这为LLM在评审中的应用敲响了警钟。

📝 摘要（中文）

本文深入研究了利用Prompt注入攻击操纵LLM生成论文评审分数的可能性。作者通过对LLM生成的1000篇ICLR 2024论文评审进行系统评估，发现：1) 简单的Prompt注入攻击非常有效，最高可使论文接受率达到100%；2) LLM评审普遍存在接受偏好（在许多模型中>95%）。这两个发现对当前关于LLM在同行评审中使用的讨论具有重大影响。

🔬 方法详解

问题定义：论文旨在研究在LLM生成的科学论文评审中，Prompt注入攻击是否可行以及其影响程度。现有方法缺乏对这种攻击方式的系统性评估，无法量化其对评审结果的影响，同时也忽略了LLM本身可能存在的评审偏见。

核心思路：论文的核心思路是通过设计一系列Prompt注入攻击，并将其嵌入到待评审的论文中，然后利用不同的LLM生成评审意见，分析攻击成功率以及LLM的评审偏好。通过对比有无攻击的评审结果，量化Prompt注入攻击的影响。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 收集ICLR 2024论文作为评审对象；2) 设计不同类型的Prompt注入攻击，例如要求LLM给出高分或推荐接受论文；3) 使用多种LLM（具体模型未知）生成对论文的评审意见；4) 分析评审结果，包括接受率、分数等指标，评估Prompt注入攻击的有效性；5) 统计LLM的评审偏好，例如接受率的分布情况。

关键创新：该研究的关键创新在于首次系统性地评估了Prompt注入攻击对LLM生成论文评审的影响，并揭示了LLM评审中普遍存在的接受偏见。这为后续研究如何防御此类攻击以及如何设计更公正的LLM评审系统提供了重要的参考。

关键设计：论文的关键设计包括Prompt注入攻击的具体形式（未知，但提到是非常简单的形式），以及用于评估攻击效果和LLM偏好的指标。由于摘要中没有提供具体的参数设置、损失函数或网络结构等细节，因此这部分信息未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，简单的Prompt注入攻击能够显著提高论文的接受率，最高可达100%。同时，研究发现LLM评审普遍存在接受偏见，在许多模型中，接受率超过95%。这些数据清晰地揭示了Prompt注入攻击的威胁以及LLM评审的潜在问题。

🎯 应用场景

该研究成果对学术出版领域具有重要意义，可用于指导LLM评审系统的设计，提高评审的公正性和可靠性。同时，该研究也提醒研究人员关注Prompt注入攻击的潜在风险，并开发相应的防御机制。此外，该研究方法可以推广到其他LLM应用场景，例如内容生成、对话系统等，以评估和缓解Prompt注入攻击的影响。

📄 摘要（原文）

The ongoing intense discussion on rising LLM usage in the scientific peer-review process has recently been mingled by reports of authors using hidden prompt injections to manipulate review scores. Since the existence of such "attacks" - although seen by some commentators as "self-defense" - would have a great impact on the further debate, this paper investigates the practicability and technical success of the described manipulations. Our systematic evaluation uses 1k reviews of 2024 ICLR papers generated by a wide range of LLMs shows two distinct results: I) very simple prompt injections are indeed highly effective, reaching up to 100% acceptance scores. II) LLM reviews are generally biased toward acceptance (>95% in many models). Both results have great impact on the ongoing discussions on LLM usage in peer-review.

Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理