When Reject Turns into Accept: Quantifying the Vulnerability of LLM-Based Scientific Reviewers to Indirect Prompt Injection

作者: Devanshu Sahoo, Manish Prasad, Vasudev Majhi, Jahnvi Singh, Vinay Chamola, Yash Sinha, Murari Mandal, Dhruv Kumar

分类: cs.AI, cs.CL, cs.CR

发布日期: 2025-12-11 (更新: 2026-01-06)

💡 一句话要点

量化LLM科学评审员对间接Prompt注入的脆弱性，揭示拒稿变录用的风险

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: LLM评审 对抗攻击 Prompt注入 科学评审 脆弱性评估

📋 核心要点

当前科学评审过度依赖LLM，机构也采用AI评估系统，但缺乏对LLM评审系统对抗攻击的充分研究。
论文提出加权对抗脆弱性评分（WAVS），量化LLM评审系统将拒稿翻转为录用的脆弱性。
实验表明，混淆技术能有效操纵评分，开源模型决策翻转率高达86.26%，并揭示了专有模型的推理漏洞。

📝 摘要（中文）

本研究调查了基于LLM的“AI评审员”系统在对抗性PDF操纵下的鲁棒性，包括不可见文本注入和布局感知编码攻击。研究重点在于将“拒绝”决定翻转为“接受”的漏洞，这从根本上损害了科学的完整性。为了衡量这种脆弱性，论文提出了一种新的指标——加权对抗脆弱性评分（WAVS），通过对评分膨胀进行加权，并结合相对于真实值的决策转变的严重程度来量化易感性。研究适配了15种特定领域的攻击策略，并在13种不同的语言模型（包括GPT-5和DeepSeek）上进行了评估，使用的数据集包含200份真实的已接受和已拒绝的投稿（例如，ICLR OpenReview）。结果表明，诸如“Maximum Mark Magyk”和“Symbolic Masking & Context Redirection”之类的混淆技术成功地操纵了评分，在开源模型中实现了高达86.26%的决策翻转率，同时揭示了专有系统中的独特“推理陷阱”。论文发布了完整的数据集和注入框架，以促进对该主题的进一步研究。

🔬 方法详解

问题定义：论文旨在解决基于LLM的科学评审系统易受对抗攻击的问题，特别是通过PDF操纵将“拒绝”决定翻转为“接受”的漏洞。现有方法缺乏对这种特定攻击场景的量化评估，并且没有充分考虑不同决策转变的严重程度。

核心思路：论文的核心思路是通过设计一系列对抗性攻击策略，并提出加权对抗脆弱性评分（WAVS）来量化LLM评审系统的脆弱性。WAVS考虑了评分膨胀的程度以及决策转变的严重性，从而更全面地评估系统的安全性。

技术框架：整体框架包括以下几个主要步骤：1) 构建包含已接受和已拒绝论文的数据集；2) 设计和实现15种不同的对抗性攻击策略，包括语义说服和认知混淆；3) 使用这些攻击策略操纵论文PDF，并将其输入到不同的LLM评审系统中；4) 评估LLM评审系统的输出，并使用WAVS量化其脆弱性。

关键创新：论文的关键创新在于：1) 提出了WAVS指标，能够更准确地量化LLM评审系统在对抗攻击下的脆弱性；2) 设计了一系列针对科学评审场景的对抗性攻击策略，这些策略能够有效地操纵LLM评审系统的决策；3) 通过实验揭示了不同LLM评审系统在面对对抗攻击时的弱点和漏洞。

关键设计：WAVS的计算方式为：首先计算评分膨胀，即对抗样本的评分与原始样本评分的差异。然后，根据决策转变的严重程度对评分膨胀进行加权。例如，将“强烈拒绝”变为“强烈接受”的转变比将“弱拒绝”变为“弱接受”的转变具有更高的权重。具体的攻击策略包括“Maximum Mark Magyk”（通过在文档中插入大量高分词汇来提高评分）和“Symbolic Masking & Context Redirection”（通过符号掩码和上下文重定向来混淆LLM的理解）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，混淆技术如“Maximum Mark Magyk”和“Symbolic Masking & Context Redirection”能有效操纵评分，在开源模型中决策翻转率高达86.26%。此外，研究还揭示了GPT-5和DeepSeek等专有模型中存在的“推理陷阱”，表明即使是先进的LLM也容易受到对抗攻击的影响。

🎯 应用场景

该研究成果可应用于提升AI辅助评审系统的安全性，帮助科研机构和出版商评估和改进其评审流程，降低因对抗攻击导致的不当录用风险。同时，该研究也为开发更鲁棒、更值得信赖的LLM应用提供了参考，促进负责任的AI发展。

📄 摘要（原文）

Driven by surging submission volumes, scientific peer review has catalyzed two parallel trends: individual over-reliance on LLMs and institutional AI-powered assessment systems. This study investigates the robustness of "LLM-as-a-Judge" systems to adversarial PDF manipulation via invisible text injections and layout aware encoding attacks. We specifically target the distinct incentive of flipping "Reject" decisions to "Accept," a vulnerability that fundamentally compromises scientific integrity. To measure this, we introduce the Weighted Adversarial Vulnerability Score (WAVS), a novel metric that quantifies susceptibility by weighting score inflation against the severity of decision shifts relative to ground truth. We adapt 15 domain-specific attack strategies, ranging from semantic persuasion to cognitive obfuscation, and evaluate them across 13 diverse language models (including GPT-5 and DeepSeek) using a curated dataset of 200 official and real-world accepted and rejected submissions (e.g., ICLR OpenReview). Our results demonstrate that obfuscation techniques like "Maximum Mark Magyk" and "Symbolic Masking & Context Redirection" successfully manipulate scores, achieving decision flip rates of up to 86.26% in open-source models, while exposing distinct "reasoning traps" in proprietary systems. We release our complete dataset and injection framework to facilitate further research on the topic (https://anonymous.4open.sciencer/llm-jailbreak-FC9E/).

When Reject Turns into Accept: Quantifying the Vulnerability of LLM-Based Scientific Reviewers to Indirect Prompt Injection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理