Boundary on the Table: Efficient Black-Box Decision-Based Attacks for Structured Data
作者: Roie Kazoom, Yuval Ratzabi, Etamar Rothstein, Ofer Hadar
分类: cs.LG, cs.AI
发布日期: 2025-09-26 (更新: 2025-11-23)
备注: Paper revision
💡 一句话要点
针对表格数据的黑盒决策型对抗攻击方法,高效攻击结构化数据模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击 黑盒攻击 决策型攻击 表格数据 无梯度优化 对抗鲁棒性 模型安全 结构化数据
📋 核心要点
- 现有方法在结构化数据对抗攻击方面存在不足,尤其是在黑盒、决策型攻击场景下,效率和成功率有待提升。
- 论文提出一种结合无梯度方向估计和迭代边界搜索的黑盒攻击方法,旨在高效地在表格数据的特征空间中寻找对抗样本。
- 实验结果表明,该方法在多种模型上取得了超过90%的攻击成功率,且查询次数较少,验证了其有效性。
📝 摘要(中文)
与视觉和语言领域相比,结构化数据中的对抗鲁棒性仍然是一个未被充分探索的领域。本文提出了一种新颖的黑盒、决策型对抗攻击方法,专门为表格数据设计。该方法结合了无梯度方向估计和迭代边界搜索,能够在最小化预言机访问的情况下,有效地导航离散和连续特征空间。大量的实验表明,我们的方法成功地攻破了各种模型(从经典机器学习分类器到基于大型语言模型(LLM)的pipeline)的几乎整个测试集。值得注意的是,该攻击的成功率始终高于90%,而每个实例仅需要少量的查询。这些结果突出了表格模型对抗扰动的严重脆弱性,强调了在实际决策系统中加强防御的迫切需要。
🔬 方法详解
问题定义:论文旨在解决表格数据模型在黑盒决策型攻击下的脆弱性问题。现有方法在处理表格数据时,尤其是在只能获得决策结果的情况下,效率较低,难以在离散和连续特征混合的空间中找到有效的对抗样本。此外,现有方法通常需要大量的查询才能成功攻击,这在实际应用中是不可接受的。
核心思路:论文的核心思路是结合无梯度方向估计和迭代边界搜索。无梯度方向估计用于在特征空间中找到对抗样本的方向,而迭代边界搜索则用于在该方向上逐步逼近决策边界,从而找到最小扰动的对抗样本。这种方法能够在不依赖梯度信息的情况下,有效地导航特征空间,并减少所需的查询次数。
技术框架:该攻击方法主要包含两个阶段:1) 无梯度方向估计:利用有限差分或随机搜索等方法,估计目标样本在特征空间中的对抗方向。2) 迭代边界搜索:沿着估计的对抗方向,通过二分查找或线性搜索等方法,逐步逼近决策边界,找到最小扰动的对抗样本。整个过程只需要访问模型的决策结果,不需要梯度信息。
关键创新:该方法最重要的创新点在于将无梯度方向估计和迭代边界搜索相结合,从而实现了高效的黑盒决策型攻击。与现有方法相比,该方法不需要梯度信息,适用于各种表格数据模型,并且能够显著减少所需的查询次数。
关键设计:在无梯度方向估计阶段,可以使用不同的方法来估计对抗方向,例如有限差分、随机搜索或进化算法。在迭代边界搜索阶段,可以使用不同的搜索策略,例如二分查找、线性搜索或黄金分割搜索。关键参数包括搜索步长、最大迭代次数和停止准则。损失函数通常是目标样本与对抗样本之间的距离,目标是最小化该距离。
📊 实验亮点
实验结果表明,该方法在多种表格数据模型上取得了超过90%的攻击成功率,包括经典机器学习分类器和基于LLM的pipeline。与现有黑盒攻击方法相比,该方法显著减少了所需的查询次数,提高了攻击效率。例如,在某些数据集上,该方法可以将查询次数减少到原来的1/10。
🎯 应用场景
该研究成果可应用于评估和提升表格数据模型的对抗鲁棒性,例如金融风控、医疗诊断等领域。通过对抗攻击,可以发现模型潜在的漏洞,并指导模型训练和防御机制的设计,从而提高模型的安全性和可靠性。此外,该方法还可以用于生成对抗样本,用于数据增强和模型泛化能力的提升。
📄 摘要(原文)
Adversarial robustness in structured data remains an underexplored frontier compared to vision and language domains. In this work, we introduce a novel black-box, decision-based adversarial attack tailored for tabular data. Our approach combines gradient-free direction estimation with an iterative boundary search, enabling efficient navigation of discrete and continuous feature spaces under minimal oracle access. Extensive experiments demonstrate that our method successfully compromises nearly the entire test set across diverse models, ranging from classical machine learning classifiers to large language model (LLM)-based pipelines. Remarkably, the attack achieves success rates consistently above 90%, while requiring only a small number of queries per instance. These results highlight the critical vulnerability of tabular models to adversarial perturbations, underscoring the urgent need for stronger defenses in real-world decision-making systems.