PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

📄 arXiv: 2603.10842v1 📥 PDF

作者: Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li

分类: cs.CL

发布日期: 2026-03-11


💡 一句话要点

提出PivotAttack,通过枢轴词重塑硬标签文本攻击的搜索轨迹

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本对抗攻击 硬标签攻击 枢轴词 多臂老虎机 查询效率

📋 核心要点

  1. 现有硬标签文本攻击方法搜索空间巨大,效率低下,难以有效攻击。
  2. PivotAttack采用“由内而外”策略,利用多臂老虎机算法寻找并扰动枢轴集。
  3. 实验证明,PivotAttack在攻击成功率和查询效率上均优于现有最佳方法。

📝 摘要(中文)

现有的硬标签文本攻击通常依赖于低效的“由外而内”策略,遍历巨大的搜索空间。我们提出了PivotAttack,一个查询高效的“由内而外”框架。它采用多臂老虎机算法来识别枢轴集(作为预测锚点的组合token组),并策略性地扰动它们以诱导标签翻转。这种方法能够捕捉词间依赖关系并最小化查询成本。在传统模型和大型语言模型上的大量实验表明,PivotAttack在攻击成功率和查询效率方面始终优于最先进的基线。

🔬 方法详解

问题定义:论文旨在解决硬标签文本攻击中,现有方法因采用“由外而内”的搜索策略而导致的查询效率低下的问题。这些方法需要大量的查询才能找到能够成功翻转标签的对抗样本,尤其是在面对大型语言模型时,成本更加高昂。

核心思路:PivotAttack的核心思路是采用“由内而外”的策略,即首先识别文本中对预测结果影响最大的“枢轴集”(Pivot Sets),然后集中精力扰动这些枢轴集。通过这种方式,可以更有效地利用查询预算,并更快地找到对抗样本。

技术框架:PivotAttack框架主要包含以下几个阶段:1) 枢轴集识别:使用多臂老虎机(Multi-Armed Bandit)算法来探索不同的token组合,并评估它们对预测结果的影响。得分高的token组合被认为是枢轴集。2) 枢轴集扰动:对识别出的枢轴集进行扰动,例如替换、插入或删除其中的token。3) 对抗样本验证:将扰动后的文本输入目标模型,检查是否成功翻转了标签。如果成功,则找到了对抗样本;否则,继续迭代枢轴集识别和扰动过程。

关键创新:PivotAttack的关键创新在于其“由内而外”的搜索策略和枢轴集的概念。与传统的“由外而内”方法相比,PivotAttack能够更有效地利用查询预算,并更快地找到对抗样本。此外,使用多臂老虎机算法来识别枢轴集,能够自适应地探索不同的token组合,并捕捉词间依赖关系。

关键设计:在枢轴集识别阶段,多臂老虎机算法需要设计合适的奖励函数来评估不同token组合的影响。奖励函数可以基于预测概率的变化、标签翻转的成功率等指标。此外,枢轴集扰动的方式也需要仔细设计,例如可以采用基于同义词替换、字符替换等方法。在实验中,需要调整多臂老虎机算法的探索率和利用率,以平衡探索新token组合和利用已知有效token组合之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PivotAttack在攻击成功率和查询效率方面均优于现有的最先进方法。例如,在某些数据集上,PivotAttack能够在显著减少查询次数的情况下,达到与现有方法相当甚至更高的攻击成功率。此外,PivotAttack在攻击大型语言模型时也表现出良好的性能,证明了其在复杂场景下的有效性。

🎯 应用场景

PivotAttack可应用于评估和提高文本分类器和大型语言模型的鲁棒性。通过生成对抗样本,可以发现模型在处理恶意输入时的脆弱性,并为开发更安全的自然语言处理系统提供指导。此外,该方法还可以用于对抗训练,提高模型对对抗攻击的防御能力。

📄 摘要(原文)

Existing hard-label text attacks often rely on inefficient "outside-in" strategies that traverse vast search spaces. We propose PivotAttack, a query-efficient "inside-out" framework. It employs a Multi-Armed Bandit algorithm to identify Pivot Sets-combinatorial token groups acting as prediction anchors-and strategically perturbs them to induce label flips. This approach captures inter-word dependencies and minimizes query costs. Extensive experiments across traditional models and Large Language Models demonstrate that PivotAttack consistently outperforms state-of-the-art baselines in both Attack Success Rate and query efficiency.