SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts
作者: Yuan Xin, Yixuan Weng, Minjun Zhu, Ying Ling, Chengwei Qin, Michael Hahn, Michael Backes, Yue Zhang, Linyi Yang
分类: cs.CL, cs.CR
发布日期: 2026-04-29
备注: 10 pages, 3 figures, 9 tables
💡 一句话要点
SafeReview:提出对抗性框架防御LLM评审系统中恶意隐藏提示
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗性攻击 大型语言模型 同行评审 生成对抗网络 信息安全
📋 核心要点
- 大型语言模型在学术评审中易受对抗性提示攻击,威胁学术诚信。
- 提出生成器-防御器对抗框架,共同优化攻击提示生成与检测能力。
- 实验表明,该框架能有效防御新型攻击,提升评审系统的安全性。
📝 摘要(中文)
随着大型语言模型(LLMs)越来越多地被整合到学术同行评审中,其对对抗性提示(嵌入在提交内容中以操纵结果的对抗性指令)的脆弱性,正成为对学术诚信的关键威胁。为了应对这一问题,我们提出了一种新颖的对抗性框架,其中生成器模型被训练来创建复杂的攻击提示,并与防御器模型共同优化,防御器模型负责检测这些攻击提示。该系统使用受信息检索生成对抗网络启发的损失函数进行训练,从而促进了两个模型之间的动态协同进化,迫使防御器开发出针对不断改进的攻击策略的强大能力。由此产生的框架展示了相对于静态防御而言,对新型和不断演变的威胁的显著增强的弹性,从而为确保同行评审的完整性奠定了关键基础。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在学术同行评审中面临的对抗性提示攻击问题。现有的静态防御方法难以应对不断演变的攻击策略,无法有效保障评审的公正性和客观性。攻击者可以通过在提交的论文中嵌入精心设计的对抗性提示,诱导LLM评审系统给出不合理的评价,从而影响评审结果。
核心思路:论文的核心思路是构建一个生成器-防御器对抗框架,通过对抗训练的方式,使防御器模型能够不断学习和适应新的攻击模式。生成器模型负责生成具有迷惑性的对抗性提示,而防御器模型则负责检测这些提示。通过二者的不断博弈,防御器模型的防御能力得到持续提升。
技术框架:整体框架包含两个主要模块:生成器(Generator)和防御器(Defender)。生成器负责生成对抗性提示,并将其嵌入到原始文本中。防御器则负责检测输入的文本中是否包含对抗性提示。这两个模块通过对抗训练的方式进行优化,即生成器试图生成能够欺骗防御器的提示,而防御器则试图识别出这些提示。训练过程受到信息检索生成对抗网络(IRGAN)的启发。
关键创新:论文的关键创新在于提出了一个动态的对抗性框架,能够应对不断演变的攻击策略。与传统的静态防御方法相比,该框架能够通过对抗训练的方式,使防御器模型具备更强的泛化能力和鲁棒性。此外,论文还借鉴了信息检索领域的IRGAN的思想,将其应用于对抗性提示的生成和检测任务中。
关键设计:论文使用了一种特殊的损失函数,该损失函数基于IRGAN的思想,旨在促进生成器和防御器之间的协同进化。具体来说,生成器的目标是最大化防御器将对抗性提示识别为正常文本的概率,而防御器的目标是最小化将对抗性提示识别为正常文本的概率。此外,论文还对生成器和防御器的网络结构进行了精心设计,以提高其性能和效率。具体的网络结构细节和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该对抗性框架能够显著提高LLM评审系统对对抗性提示的防御能力。与静态防御方法相比,该框架能够更好地应对新型和不断演变的攻击策略。具体而言,该框架在检测对抗性提示的准确率和召回率方面均取得了显著提升,并且能够有效降低攻击者成功操纵评审结果的概率。
🎯 应用场景
该研究成果可应用于各种基于LLM的文本评审系统,例如学术论文评审、产品评论分析、新闻内容审核等。通过提高评审系统对对抗性提示的防御能力,可以有效保障评审的公正性和客观性,防止恶意攻击者操纵评审结果。该研究对于维护信息生态的健康发展具有重要意义。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly integrated into academic peer review, their vulnerability to adversarial prompts -- adversarial instructions embedded in submissions to manipulate outcomes -- emerges as a critical threat to scholarly integrity. To counter this, we propose a novel adversarial framework where a Generator model, trained to create sophisticated attack prompts, is jointly optimized with a Defender model tasked with their detection. This system is trained using a loss function inspired by Information Retrieval Generative Adversarial Networks, which fosters a dynamic co-evolution between the two models, forcing the Defender to develop robust capabilities against continuously improving attack strategies. The resulting framework demonstrates significantly enhanced resilience to novel and evolving threats compared to static defenses, thereby establishing a critical foundation for securing the integrity of peer review.