Attack-Resistant Uniform Fairness for Linear and Smooth Contextual Bandits

📄 arXiv: 2602.04125v1 📥 PDF

作者: Qingwen Zhang, Wenjia Wang

分类: stat.ML, cs.LG, stat.ME

发布日期: 2026-02-04


💡 一句话要点

针对线性与平滑上下文Bandit,提出抗攻击的均匀公平算法,提升系统鲁棒性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 上下文Bandit 公平性 抗攻击 鲁棒性 在线学习 策略性操纵 均匀公平 腐败自适应

📋 核心要点

  1. 现有上下文Bandit算法在公平性方面存在不足,易受策略性操纵,导致系统长期可持续性和供应商信任受损。
  2. 论文提出一种抗攻击的均匀公平算法,通过腐败自适应探索和误差补偿阈值,保证在攻击下的公平性。
  3. 实验结果表明,该算法在维持公平性的同时,实现了极小极大最优遗憾,并在真实案例中验证了其有效性。

📝 摘要(中文)

本文研究了均匀(1-δ)-公平约束下的上下文Bandit问题,并解决了其对策略性操纵的独特脆弱性。该公平约束确保了在所有上下文和时间范围内,对臂的优待完全由其真实奖励来证明,并使用均匀性来防止统计漏洞。我们开发了新的算法,这些算法在保持强(1-O~(1/T))-公平保证的同时,为线性和平滑奖励函数实现了(几乎)极小极大最优遗憾,并进一步表征了理论上固有但渐近边际的“公平代价”。然而,我们揭示了这种基于优点的公平性变得特别容易受到信号操纵的影响。我们表明,一个具有最小O~(1)预算的攻击者不仅可以像传统攻击一样降低整体性能,还可以选择性地诱导阴险的、特定于公平性的失败,同时使明显的遗憾度量在很大程度上不受影响。为了应对这种情况,我们设计了包含腐败自适应探索和误差补偿阈值的鲁棒变体。我们的方法在C-预算攻击下产生了第一个极小极大最优遗憾界限,同时保持了(1-O~(1/T))-公平性。数值实验和一个真实案例表明,我们的算法能够维持公平性和效率。

🔬 方法详解

问题定义:论文旨在解决上下文Bandit问题中,现有算法在满足公平性约束时,容易受到恶意攻击的问题。传统的公平性算法可能存在统计漏洞,并且容易被攻击者利用信号操纵来破坏公平性,导致系统性能下降和公平性失效。

核心思路:论文的核心思路是设计一种既能保证公平性,又能抵抗恶意攻击的上下文Bandit算法。通过引入均匀公平约束,确保对臂的优待完全基于其真实奖励,并采用腐败自适应探索和误差补偿阈值来应对攻击者的信号操纵。

技术框架:该算法框架主要包含以下几个模块:1) 上下文信息的收集与处理;2) 基于线性或平滑奖励函数的奖励预测;3) 均匀公平约束的实施,确保对臂的选择符合公平性要求;4) 腐败自适应探索,根据环境中的噪声和攻击情况调整探索策略;5) 误差补偿阈值,用于过滤掉恶意攻击引入的虚假信号。

关键创新:论文的关键创新在于提出了一种抗攻击的均匀公平上下文Bandit算法,该算法不仅能够保证公平性,还能在恶意攻击下保持较好的性能。与现有方法相比,该算法通过腐败自适应探索和误差补偿阈值,有效地抵御了攻击者的信号操纵,提高了系统的鲁棒性。

关键设计:在算法设计中,采用了均匀(1-δ)-公平约束,确保在所有上下文和时间范围内,对臂的优待完全由其真实奖励来证明。腐败自适应探索通过调整探索率,根据环境中的噪声和攻击情况自适应地调整探索策略。误差补偿阈值则通过设置合理的阈值,过滤掉恶意攻击引入的虚假信号,从而提高奖励预测的准确性。

📊 实验亮点

论文通过数值实验和真实案例验证了算法的有效性。实验结果表明,该算法在保持(1-O~(1/T))-公平性的同时,实现了极小极大最优遗憾。在受到C-预算攻击时,该算法仍然能够保持较好的性能,优于传统的公平性算法。

🎯 应用场景

该研究成果可应用于各种在线决策系统,如数字平台、推荐系统、广告投放等,尤其适用于对公平性有较高要求的场景。通过提升系统的鲁棒性和公平性,可以增强用户信任,提高平台的可持续性,并促进更公平的资源分配。

📄 摘要(原文)

Modern systems, such as digital platforms and service systems, increasingly rely on contextual bandits for online decision-making; however, their deployment can inadvertently create unfair exposure among arms, undermining long-term platform sustainability and supplier trust. This paper studies the contextual bandit problem under a uniform $(1-δ)$-fairness constraint, and addresses its unique vulnerabilities to strategic manipulation. The fairness constraint ensures that preferential treatment is strictly justified by an arm's actual reward across all contexts and time horizons, using uniformity to prevent statistical loopholes. We develop novel algorithms that achieve (nearly) minimax-optimal regret for both linear and smooth reward functions, while maintaining strong $(1-\tilde{O}(1/T))$-fairness guarantees, and further characterize the theoretically inherent yet asymptotically marginal "price of fairness". However, we reveal that such merit-based fairness becomes uniquely susceptible to signal manipulation. We show that an adversary with a minimal $\tilde{O}(1)$ budget can not only degrade overall performance as in traditional attacks, but also selectively induce insidious fairness-specific failures while leaving conspicuous regret measures largely unaffected. To counter this, we design robust variants incorporating corruption-adaptive exploration and error-compensated thresholding. Our approach yields the first minimax-optimal regret bounds under $C$-budgeted attack while preserving $(1-\tilde{O}(1/T))$-fairness. Numerical experiments and a real-world case demonstrate that our algorithms sustain both fairness and efficiency.