Fooling LLM graders into giving better grades through neural activity guided adversarial prompting

作者: Atsushi Yamamura, Surya Ganguli

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-12-17

备注: 16 pages, 11 figures

💡 一句话要点

提出神经活动引导的对抗性提示方法，欺骗LLM评分器以获得更高分数

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对抗性攻击 大型语言模型 神经活动分析 自动评分 AI安全

📋 核心要点

现有AI评估系统存在偏见，可能被恶意利用，导致决策扭曲，尤其是在自动评分等场景。
通过识别并放大影响LLM评分的隐藏神经活动模式，构造对抗性提示，诱导LLM给出更高评分。
实验表明，该方法能有效欺骗LLM评分器，且白盒攻击可迁移至黑盒模型，揭示了“魔法词”偏见。

📝 摘要（中文）

人工智能在关键决策和评估过程中的部署引发了人们对其固有偏见的担忧，这些偏见可能被恶意行为者利用来扭曲决策结果。本文提出了一种系统的方法来揭示人工智能评估系统中的此类偏见，并以自动作文评分为例进行应用。我们的方法首先识别预测扭曲决策结果的隐藏神经活动模式，然后优化对抗性输入后缀以放大这些模式。我们证明，这种组合可以有效地欺骗大型语言模型（LLM）评分器，使其给出比人类更高的分数。我们进一步表明，这种白盒攻击可以转移到对其他模型的黑盒攻击，包括像Gemini这样的商业闭源模型。他们还揭示了一个在攻击效果中起关键作用的“魔法词”的存在。我们追溯了这种魔法词偏见的根源，发现它与常用于LLM监督微调的聊天模板的结构有关，并表明对模板的微小改变可以大大减少这种偏见。这项工作不仅揭示了当前LLM的漏洞，还提出了一种系统的方法来识别和消除隐藏的偏见，从而有助于确保人工智能的安全和保障。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在自动评估任务中存在的偏见问题，特别是LLM评分器容易受到对抗性攻击的影响，导致评分结果与人类判断不一致。现有方法缺乏系统性地识别和利用这些偏见的手段，使得LLM评分系统的可靠性受到挑战。

核心思路：论文的核心思路是利用神经活动引导的对抗性提示，通过识别影响LLM评分的隐藏神经活动模式，并构造特定的输入后缀来放大这些模式，从而诱导LLM给出更高的评分。这种方法的核心在于发现并利用LLM内部的偏见，而非直接修改模型本身。

技术框架：该方法包含以下几个主要阶段：1) 神经活动模式识别：通过分析LLM内部的神经活动，识别与评分结果相关的隐藏模式。2) 对抗性后缀优化：利用优化算法，生成能够放大特定神经活动模式的对抗性输入后缀。3) 攻击效果评估：评估对抗性提示对LLM评分的影响，并与人类评分进行对比。4) 黑盒迁移性测试：测试在白盒模型上生成的对抗性提示在其他黑盒模型上的攻击效果。

关键创新：该方法最重要的技术创新点在于其系统性地利用神经活动来引导对抗性提示的生成。与传统的对抗性攻击方法不同，该方法并非盲目地搜索输入空间，而是有针对性地放大影响评分结果的神经活动模式，从而提高了攻击的效率和成功率。此外，该方法还揭示了LLM中存在的“魔法词”偏见，并分析了其根源。

关键设计：在神经活动模式识别阶段，论文可能使用了某种形式的线性探针或相关性分析来识别与评分结果相关的神经元或神经元组合。在对抗性后缀优化阶段，可能使用了梯度下降或其他优化算法来搜索能够最大化目标神经活动模式的输入后缀。损失函数的设计可能包括对目标神经活动模式的放大以及对输入后缀的正则化，以避免生成过于异常的输入。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够有效地欺骗LLM评分器，使其给出比人类更高的评分。白盒攻击可以成功迁移到黑盒模型，包括商业闭源模型Gemini。研究还揭示了“魔法词”偏见，并证明通过修改聊天模板可以显著降低这种偏见。具体性能数据未知，但强调了攻击的有效性和迁移性。

🎯 应用场景

该研究成果可应用于提升AI系统的安全性与鲁棒性，尤其是在涉及自动评估、决策支持等关键领域的AI应用中。通过识别和消除LLM中的偏见，可以提高AI系统的公平性和可靠性。此外，该方法还可以用于评估和比较不同LLM的抗攻击能力，为AI模型的安全部署提供指导。

📄 摘要（原文）

The deployment of artificial intelligence (AI) in critical decision-making and evaluation processes raises concerns about inherent biases that malicious actors could exploit to distort decision outcomes. We propose a systematic method to reveal such biases in AI evaluation systems and apply it to automated essay grading as an example. Our approach first identifies hidden neural activity patterns that predict distorted decision outcomes and then optimizes an adversarial input suffix to amplify such patterns. We demonstrate that this combination can effectively fool large language model (LLM) graders into assigning much higher grades than humans would. We further show that this white-box attack transfers to black-box attacks on other models, including commercial closed-source models like Gemini. They further reveal the existence of a "magic word" that plays a pivotal role in the efficacy of the attack. We trace the origin of this magic word bias to the structure of commonly-used chat templates for supervised fine-tuning of LLMs and show that a minor change in the template can drastically reduce the bias. This work not only uncovers vulnerabilities in current LLMs but also proposes a systematic method to identify and remove hidden biases, contributing to the goal of ensuring AI safety and security.

Fooling LLM graders into giving better grades through neural activity guided adversarial prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理