PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

作者: Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li

分类: cs.CL

发布日期: 2026-03-11

💡 一句话要点

提出PivotAttack，通过枢轴词重塑硬标签文本攻击的搜索轨迹

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本对抗攻击 硬标签攻击 枢轴词 多臂老虎机 查询效率

📋 核心要点

现有硬标签文本攻击方法搜索空间巨大，效率低下，难以有效攻击。
PivotAttack采用“由内而外”策略，利用多臂老虎机算法寻找并扰动枢轴集。
实验证明，PivotAttack在攻击成功率和查询效率上均优于现有最佳方法。

📝 摘要（中文）

现有的硬标签文本攻击通常依赖于低效的“由外而内”策略，遍历巨大的搜索空间。我们提出了PivotAttack，一个查询高效的“由内而外”框架。它采用多臂老虎机算法来识别枢轴集（作为预测锚点的组合token组），并策略性地扰动它们以诱导标签翻转。这种方法能够捕捉词间依赖关系并最小化查询成本。在传统模型和大型语言模型上的大量实验表明，PivotAttack在攻击成功率和查询效率方面始终优于最先进的基线。

🔬 方法详解

问题定义：论文旨在解决硬标签文本攻击中，现有方法因采用“由外而内”的搜索策略而导致的查询效率低下的问题。这些方法需要大量的查询才能找到能够成功翻转标签的对抗样本，尤其是在面对大型语言模型时，成本更加高昂。

核心思路：PivotAttack的核心思路是采用“由内而外”的策略，即首先识别文本中对预测结果影响最大的“枢轴集”（Pivot Sets），然后集中精力扰动这些枢轴集。通过这种方式，可以更有效地利用查询预算，并更快地找到对抗样本。

技术框架：PivotAttack框架主要包含以下几个阶段：1) 枢轴集识别：使用多臂老虎机（Multi-Armed Bandit）算法来探索不同的token组合，并评估它们对预测结果的影响。得分高的token组合被认为是枢轴集。2) 枢轴集扰动：对识别出的枢轴集进行扰动，例如替换、插入或删除其中的token。3) 对抗样本验证：将扰动后的文本输入目标模型，检查是否成功翻转了标签。如果成功，则找到了对抗样本；否则，继续迭代枢轴集识别和扰动过程。

关键创新：PivotAttack的关键创新在于其“由内而外”的搜索策略和枢轴集的概念。与传统的“由外而内”方法相比，PivotAttack能够更有效地利用查询预算，并更快地找到对抗样本。此外，使用多臂老虎机算法来识别枢轴集，能够自适应地探索不同的token组合，并捕捉词间依赖关系。

关键设计：在枢轴集识别阶段，多臂老虎机算法需要设计合适的奖励函数来评估不同token组合的影响。奖励函数可以基于预测概率的变化、标签翻转的成功率等指标。此外，枢轴集扰动的方式也需要仔细设计，例如可以采用基于同义词替换、字符替换等方法。在实验中，需要调整多臂老虎机算法的探索率和利用率，以平衡探索新token组合和利用已知有效token组合之间的关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PivotAttack在攻击成功率和查询效率方面均优于现有的最先进方法。例如，在某些数据集上，PivotAttack能够在显著减少查询次数的情况下，达到与现有方法相当甚至更高的攻击成功率。此外，PivotAttack在攻击大型语言模型时也表现出良好的性能，证明了其在复杂场景下的有效性。

🎯 应用场景

PivotAttack可应用于评估和提高文本分类器和大型语言模型的鲁棒性。通过生成对抗样本，可以发现模型在处理恶意输入时的脆弱性，并为开发更安全的自然语言处理系统提供指导。此外，该方法还可以用于对抗训练，提高模型对对抗攻击的防御能力。

📄 摘要（原文）

Existing hard-label text attacks often rely on inefficient "outside-in" strategies that traverse vast search spaces. We propose PivotAttack, a query-efficient "inside-out" framework. It employs a Multi-Armed Bandit algorithm to identify Pivot Sets-combinatorial token groups acting as prediction anchors-and strategically perturbs them to induce label flips. This approach captures inter-word dependencies and minimizes query costs. Extensive experiments across traditional models and Large Language Models demonstrate that PivotAttack consistently outperforms state-of-the-art baselines in both Attack Success Rate and query efficiency.

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理