Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing

📄 arXiv: 2512.23684v1 📥 PDF

作者: Panagiotis Theocharopoulos, Ajinkya Kulkarni, Mathew Magimai. -Doss

分类: cs.CL, cs.AI

发布日期: 2025-12-29


💡 一句话要点

多语言隐藏提示注入攻击影响LLM学术评审,不同语言脆弱性差异显著

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示注入攻击 大型语言模型 学术评审 多语言 对抗性攻击

📋 核心要点

  1. LLM在学术评审等高风险场景应用面临安全挑战,文档级隐藏提示注入攻击是潜在威胁。
  2. 论文通过在学术论文中嵌入多语言对抗性提示,评估LLM评审系统的脆弱性。
  3. 实验表明,英语、日语和中文提示注入显著影响评审结果,不同语言的攻击效果存在差异。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被考虑用于高影响的工作流程,包括学术同行评审。然而,LLM容易受到文档级别的隐藏提示注入攻击。本文构建了一个包含约500篇ICML接收的真实学术论文的数据集,并评估了在这些文档中嵌入隐藏对抗性提示的效果。每篇论文都被注入了四种不同语言的语义等效指令,并使用LLM进行评审。研究发现,提示注入导致英语、日语和中文注入的评审分数和接受/拒绝决定发生重大变化,而阿拉伯语注入几乎没有产生任何影响。这些结果突出了基于LLM的评审系统对文档级别提示注入的敏感性,并揭示了不同语言之间脆弱性的显著差异。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在学术评审中面临的文档级隐藏提示注入攻击的脆弱性。现有方法缺乏对这种攻击的有效防御,使得LLM评审系统容易受到恶意操控,影响评审的公正性和准确性。

核心思路:核心思路是在真实的学术论文中嵌入隐藏的对抗性提示,这些提示以不同的语言编写,旨在诱导LLM评审系统给出特定的评审结果。通过观察LLM对这些注入提示的反应,评估其对提示注入攻击的抵抗能力。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集ICML接收的学术论文数据集;2) 使用四种不同的语言(英语、日语、中文和阿拉伯语)生成语义等效的对抗性提示;3) 将这些提示以隐藏的方式嵌入到论文中;4) 使用LLM对注入提示的论文进行评审;5) 分析评审结果,评估提示注入对评审分数和接受/拒绝决定的影响。

关键创新:该研究的关键创新在于:1) 系统地研究了多语言提示注入攻击对LLM评审系统的影响;2) 揭示了不同语言的提示注入攻击效果存在显著差异;3) 使用真实的学术论文数据集进行实验,提高了研究的实际意义。

关键设计:对抗性提示的设计目标是在不影响论文可读性的前提下,尽可能地影响LLM的评审结果。提示的嵌入方式采用了一种隐藏技术,使得人类评审员难以察觉。实验中,使用了特定的LLM模型进行评审,并对评审分数和接受/拒绝决定进行了量化分析。

📊 实验亮点

实验结果表明,英语、日语和中文的提示注入攻击显著影响了LLM的评审结果,导致评审分数和接受/拒绝决定发生重大变化。阿拉伯语的提示注入攻击效果不明显。这些结果揭示了LLM评审系统对提示注入攻击的脆弱性,并强调了多语言环境下的安全风险。

🎯 应用场景

该研究成果可应用于提升LLM在学术评审、内容审核等领域的安全性。通过分析不同语言的脆弱性,可以开发更有效的防御机制,防止恶意用户通过提示注入操控LLM的行为。研究结果对构建更安全可靠的AI系统具有重要意义。

📄 摘要(原文)

Large language models (LLMs) are increasingly considered for use in high-impact workflows, including academic peer review. However, LLMs are vulnerable to document-level hidden prompt injection attacks. In this work, we construct a dataset of approximately 500 real academic papers accepted to ICML and evaluate the effect of embedding hidden adversarial prompts within these documents. Each paper is injected with semantically equivalent instructions in four different languages and reviewed using an LLM. We find that prompt injection induces substantial changes in review scores and accept/reject decisions for English, Japanese, and Chinese injections, while Arabic injections produce little to no effect. These results highlight the susceptibility of LLM-based reviewing systems to document-level prompt injection and reveal notable differences in vulnerability across languages.