Reasoning Robustness of LLMs to Adversarial Typographical Errors

📄 arXiv: 2411.05345v1 📥 PDF

作者: Esther Gan, Yiran Zhao, Liying Cheng, Yancan Mao, Anirudh Goyal, Kenji Kawaguchi, Min-Yen Kan, Michael Shieh

分类: cs.CL, cs.AI

发布日期: 2024-11-08


💡 一句话要点

提出对抗性拼写错误攻击方法,评估LLM推理的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理鲁棒性 对抗性攻击 拼写错误 思维链 R²ATA基准 模型评估

📋 核心要点

  1. 现有LLM推理能力强大,但易受用户指令偏差影响,缺乏对自然语言中常见拼写错误的鲁棒性。
  2. 提出对抗性拼写错误攻击(ATA)算法,通过迭代采样和选择关键单词的拼写错误来攻击LLM。
  3. 实验表明,即使是少量字符的拼写错误也能显著降低LLM在GSM8K等数据集上的推理准确率。

📝 摘要(中文)

大型语言模型(LLM)在使用思维链(CoT)提示时表现出令人印象深刻的推理能力。然而,CoT可能受到用户指令的偏差影响。本文研究了LLM对拼写错误的推理鲁棒性,这些错误自然会出现在用户的查询中。我们设计了一种对抗性拼写错误攻击(ATA)算法,该算法迭代地为对查询重要的单词采样拼写错误,并选择最有可能成功攻击的编辑。结果表明,LLM对最小的对抗性拼写错误变化很敏感。值得注意的是,通过1个字符的编辑,Mistral-7B-Instruct在GSM8K上的准确率从43.7%下降到38.6%,而通过8个字符的编辑,性能进一步下降到19.2%。为了将我们的评估扩展到更大和闭源的LLM,我们开发了R²ATA基准,该基准评估模型对ATA的推理鲁棒性。它包括通过将ATA应用于开源LLM,从三个广泛使用的推理数据集(GSM8K、BBH和MMLU)导出的对抗性拼写错误问题。R²ATA表现出显著的可迁移性,并导致多个超大型和闭源LLM的性能显著下降。

🔬 方法详解

问题定义:论文旨在解决LLM在面对用户查询中常见的拼写错误时,推理能力显著下降的问题。现有方法缺乏对这种自然扰动的鲁棒性评估,使得LLM在实际应用中容易受到攻击。

核心思路:核心思路是通过设计一种对抗性攻击方法,即对抗性拼写错误攻击(ATA),来系统性地评估LLM对拼写错误的鲁棒性。通过在关键单词上引入拼写错误,观察LLM的推理性能变化,从而量化其鲁棒性。

技术框架:整体框架包含以下几个主要步骤:1)选择推理数据集(如GSM8K、BBH、MMLU);2)使用开源LLM对数据集中的问题应用ATA算法,生成对抗性样本;3)使用对抗性样本评估目标LLM(包括开源和闭源LLM)的推理性能;4)分析性能下降情况,评估LLM的鲁棒性。R²ATA基准是基于此框架构建的。

关键创新:关键创新在于提出了ATA算法,该算法能够自动生成具有对抗性的拼写错误,并有效地攻击LLM的推理能力。与随机引入拼写错误的方法相比,ATA算法能够更有针对性地选择对LLM推理影响最大的单词进行修改,从而更有效地评估LLM的鲁棒性。

关键设计:ATA算法的关键设计包括:1)确定对查询重要的单词(例如,通过计算单词的重要性得分);2)迭代地为这些单词采样拼写错误(例如,通过插入、删除、替换字符);3)选择最有可能成功攻击的编辑(例如,通过评估修改后的查询对LLM推理结果的影响)。R²ATA基准的关键设计在于其可迁移性,即使用开源LLM生成的对抗性样本可以有效地攻击闭源LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是少量字符的拼写错误也能显著降低LLM的推理准确率。例如,在GSM8K数据集上,Mistral-7B-Instruct模型在1个字符编辑的情况下,准确率从43.7%下降到38.6%,8个字符编辑的情况下,准确率下降到19.2%。R²ATA基准也显示出显著的可迁移性,能够有效地攻击多个大型闭源LLM。

🎯 应用场景

该研究成果可应用于评估和提升LLM在实际应用场景中的可靠性。通过对抗性攻击,可以发现LLM的脆弱点,并指导模型训练,提高其对噪声和错误的鲁棒性。此外,该研究也有助于开发更安全的LLM应用,防止恶意用户利用拼写错误等手段进行攻击。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated impressive capabilities in reasoning using Chain-of-Thought (CoT) prompting. However, CoT can be biased by users' instruction. In this work, we study the reasoning robustness of LLMs to typographical errors, which can naturally occur in users' queries. We design an Adversarial Typo Attack ($\texttt{ATA}$) algorithm that iteratively samples typos for words that are important to the query and selects the edit that is most likely to succeed in attacking. It shows that LLMs are sensitive to minimal adversarial typographical changes. Notably, with 1 character edit, Mistral-7B-Instruct's accuracy drops from 43.7% to 38.6% on GSM8K, while with 8 character edits the performance further drops to 19.2%. To extend our evaluation to larger and closed-source LLMs, we develop the $\texttt{R$^2$ATA}$ benchmark, which assesses models' $\underline{R}$easoning $\underline{R}$obustness to $\underline{\texttt{ATA}}$. It includes adversarial typographical questions derived from three widely used reasoning datasets-GSM8K, BBH, and MMLU-by applying $\texttt{ATA}$ to open-source LLMs. $\texttt{R$^2$ATA}$ demonstrates remarkable transferability and causes notable performance drops across multiple super large and closed-source LLMs.