When Reject Turns into Accept: Quantifying the Vulnerability of LLM-Based Scientific Reviewers to Indirect Prompt Injection

📄 arXiv: 2512.10449v3 📥 PDF

作者: Devanshu Sahoo, Manish Prasad, Vasudev Majhi, Jahnvi Singh, Vinay Chamola, Yash Sinha, Murari Mandal, Dhruv Kumar

分类: cs.AI, cs.CL, cs.CR

发布日期: 2025-12-11 (更新: 2026-01-06)


💡 一句话要点

量化LLM科学评审员对间接Prompt注入的脆弱性,揭示拒稿变录用的风险

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: LLM评审 对抗攻击 Prompt注入 科学评审 脆弱性评估

📋 核心要点

  1. 当前科学评审过度依赖LLM,机构也采用AI评估系统,但缺乏对LLM评审系统对抗攻击的充分研究。
  2. 论文提出加权对抗脆弱性评分(WAVS),量化LLM评审系统将拒稿翻转为录用的脆弱性。
  3. 实验表明,混淆技术能有效操纵评分,开源模型决策翻转率高达86.26%,并揭示了专有模型的推理漏洞。

📝 摘要(中文)

本研究调查了基于LLM的“AI评审员”系统在对抗性PDF操纵下的鲁棒性,包括不可见文本注入和布局感知编码攻击。研究重点在于将“拒绝”决定翻转为“接受”的漏洞,这从根本上损害了科学的完整性。为了衡量这种脆弱性,论文提出了一种新的指标——加权对抗脆弱性评分(WAVS),通过对评分膨胀进行加权,并结合相对于真实值的决策转变的严重程度来量化易感性。研究适配了15种特定领域的攻击策略,并在13种不同的语言模型(包括GPT-5和DeepSeek)上进行了评估,使用的数据集包含200份真实的已接受和已拒绝的投稿(例如,ICLR OpenReview)。结果表明,诸如“Maximum Mark Magyk”和“Symbolic Masking & Context Redirection”之类的混淆技术成功地操纵了评分,在开源模型中实现了高达86.26%的决策翻转率,同时揭示了专有系统中的独特“推理陷阱”。论文发布了完整的数据集和注入框架,以促进对该主题的进一步研究。

🔬 方法详解

问题定义:论文旨在解决基于LLM的科学评审系统易受对抗攻击的问题,特别是通过PDF操纵将“拒绝”决定翻转为“接受”的漏洞。现有方法缺乏对这种特定攻击场景的量化评估,并且没有充分考虑不同决策转变的严重程度。

核心思路:论文的核心思路是通过设计一系列对抗性攻击策略,并提出加权对抗脆弱性评分(WAVS)来量化LLM评审系统的脆弱性。WAVS考虑了评分膨胀的程度以及决策转变的严重性,从而更全面地评估系统的安全性。

技术框架:整体框架包括以下几个主要步骤:1) 构建包含已接受和已拒绝论文的数据集;2) 设计和实现15种不同的对抗性攻击策略,包括语义说服和认知混淆;3) 使用这些攻击策略操纵论文PDF,并将其输入到不同的LLM评审系统中;4) 评估LLM评审系统的输出,并使用WAVS量化其脆弱性。

关键创新:论文的关键创新在于:1) 提出了WAVS指标,能够更准确地量化LLM评审系统在对抗攻击下的脆弱性;2) 设计了一系列针对科学评审场景的对抗性攻击策略,这些策略能够有效地操纵LLM评审系统的决策;3) 通过实验揭示了不同LLM评审系统在面对对抗攻击时的弱点和漏洞。

关键设计:WAVS的计算方式为:首先计算评分膨胀,即对抗样本的评分与原始样本评分的差异。然后,根据决策转变的严重程度对评分膨胀进行加权。例如,将“强烈拒绝”变为“强烈接受”的转变比将“弱拒绝”变为“弱接受”的转变具有更高的权重。具体的攻击策略包括“Maximum Mark Magyk”(通过在文档中插入大量高分词汇来提高评分)和“Symbolic Masking & Context Redirection”(通过符号掩码和上下文重定向来混淆LLM的理解)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,混淆技术如“Maximum Mark Magyk”和“Symbolic Masking & Context Redirection”能有效操纵评分,在开源模型中决策翻转率高达86.26%。此外,研究还揭示了GPT-5和DeepSeek等专有模型中存在的“推理陷阱”,表明即使是先进的LLM也容易受到对抗攻击的影响。

🎯 应用场景

该研究成果可应用于提升AI辅助评审系统的安全性,帮助科研机构和出版商评估和改进其评审流程,降低因对抗攻击导致的不当录用风险。同时,该研究也为开发更鲁棒、更值得信赖的LLM应用提供了参考,促进负责任的AI发展。

📄 摘要(原文)

Driven by surging submission volumes, scientific peer review has catalyzed two parallel trends: individual over-reliance on LLMs and institutional AI-powered assessment systems. This study investigates the robustness of "LLM-as-a-Judge" systems to adversarial PDF manipulation via invisible text injections and layout aware encoding attacks. We specifically target the distinct incentive of flipping "Reject" decisions to "Accept," a vulnerability that fundamentally compromises scientific integrity. To measure this, we introduce the Weighted Adversarial Vulnerability Score (WAVS), a novel metric that quantifies susceptibility by weighting score inflation against the severity of decision shifts relative to ground truth. We adapt 15 domain-specific attack strategies, ranging from semantic persuasion to cognitive obfuscation, and evaluate them across 13 diverse language models (including GPT-5 and DeepSeek) using a curated dataset of 200 official and real-world accepted and rejected submissions (e.g., ICLR OpenReview). Our results demonstrate that obfuscation techniques like "Maximum Mark Magyk" and "Symbolic Masking & Context Redirection" successfully manipulate scores, achieving decision flip rates of up to 86.26% in open-source models, while exposing distinct "reasoning traps" in proprietary systems. We release our complete dataset and injection framework to facilitate further research on the topic (https://anonymous.4open.sciencer/llm-jailbreak-FC9E/).