A Unified Perturbation Framework for Analyzing Leaderboard Stability and Manipulation

📄 arXiv: 2605.15761v1 📥 PDF

作者: Hosna Oyarhoseini, Jimmy Lin, Amir-Hossein Karimi

分类: cs.LG

发布日期: 2026-05-15


💡 一句话要点

提出统一扰动框架,分析并操控大语言模型排行榜的稳定性和鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 排行榜 鲁棒性 扰动分析 影响力函数

📋 核心要点

  1. 现有大语言模型排行榜的鲁棒性缺乏深入研究,容易受到微小数据扰动的影响,导致排名变化。
  2. 论文提出统一扰动框架,通过影响力分析近似计算,评估多种扰动对排行榜稳定性的影响。
  3. 实验证明现有排行榜对扰动敏感,并展示了该框架在高效操纵排行榜和降低模型不确定性方面的能力。

📝 摘要(中文)

本文提出了一个统一的扰动框架,用于分析Bradley-Terry排行榜在结构化数据修改下的稳定性。该框架利用基于影响力的近似方法,研究了三种匹配级别的扰动(删除、添加和翻转)以及玩家移除对排行榜的影响,并评估它们对top-k成员、全局排序一致性(通过Kendall's tau衡量)以及基于置信区间的稳定性的影响。在Chatbot Arena和六个额外的成对比较数据集上的实验表明,当前的排行榜在所有三个目标上都缺乏鲁棒性:低于1%的针对性扰动就可以改变排名最高的模型,降低Kendall's tau,并改变置信区间。除了鲁棒性审计之外,本文还表明,相同的影响力分数能够实现高效的针对性扰动,以比先前的操纵和主动采样基线更少的动作来提升或降低特定模型的排名,并降低目标模型的不确定性。通过使用归一化的数据集级别鲁棒性分数总结这些影响,该框架为审计排行榜稳定性和激励更鲁棒的评估协议提供了一个实用且有用的工具。

🔬 方法详解

问题定义:现有的大语言模型排行榜,如LMArena,通过汇总成对的人工偏好来对模型进行排名。然而,这些排行榜的鲁棒性,即它们在面对数据扰动时的稳定性,并没有得到充分的研究。现有的方法缺乏系统性的框架来分析和量化不同类型的扰动对排行榜的影响,并且难以有效地进行针对性的操纵。

核心思路:本文的核心思路是利用影响力函数来近似计算各种扰动(例如,添加、删除或翻转成对比较结果)对排行榜的影响。通过计算每个扰动对模型排名的影响分数,可以识别出最敏感的比较结果,并进行针对性的修改,从而改变排行榜的排名。这种方法避免了对整个排行榜进行重新计算,提高了效率。

技术框架:该框架包含以下几个主要模块:1) 扰动定义:定义了三种匹配级别的扰动(Drop, Add, Flip)和玩家移除。2) 影响力计算:使用影响力函数来近似计算每个扰动对模型排名的影响。3) 鲁棒性评估:使用top-k成员变化、Kendall's tau和置信区间变化来评估排行榜的鲁棒性。4) 针对性扰动:利用影响力分数来选择要修改的比较结果,以提升或降低特定模型的排名。

关键创新:该论文的关键创新在于提出了一个统一的扰动框架,可以系统地分析和量化不同类型的扰动对排行榜的影响。与现有方法相比,该框架能够更有效地进行针对性的操纵,并且可以用于评估排行榜的鲁棒性。此外,使用影响力函数进行近似计算,避免了对整个排行榜进行重新计算,提高了效率。

关键设计:该框架的关键设计包括:1) 使用Bradley-Terry模型来对成对比较结果进行建模。2) 使用Kendall's tau来衡量全局排序一致性。3) 使用置信区间来评估模型排名的不确定性。4) 定义了归一化的数据集级别鲁棒性分数,用于总结不同数据集上的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是小于1%的针对性扰动也可能改变排名最高的模型,降低Kendall's tau,并改变置信区间。此外,该框架能够以比先前方法更少的动作来提升或降低特定模型的排名,并降低目标模型的不确定性。在Chatbot Arena和六个额外的成对比较数据集上验证了该框架的有效性。

🎯 应用场景

该研究成果可应用于评估和改进大语言模型排行榜的鲁棒性,帮助构建更可靠的模型评估体系。此外,该框架还可用于发现排行榜中的潜在漏洞,并开发防御机制,防止恶意操纵。该研究对于推动大语言模型评估的标准化和公平性具有重要意义。

📄 摘要(原文)

Evaluation leaderboards such as LMArena play a central role in benchmarking large language models by aggregating pairwise human preferences into model rankings, yet the robustness of these rankings remains poorly understood. We present a unified perturbation framework for analyzing Bradley-Terry leaderboards under structured data modifications using influence-based approximations. Our framework studies three match-level perturbations -- Drop, Add, and Flip -- together with player removal, and evaluates their effects on top-k membership, global ranking consistency via Kendall's tau, and confidence-interval-based uncertainty. Across Chatbot Arena and six additional pairwise-comparison datasets, we show that modern leaderboards are non-robust across all three objectives: sub-1% targeted perturbations can change the top-ranked model, degrade Kendall's tau, and alter confidence intervals. Beyond robustness auditing, we show that the same influence scores enable efficient targeted perturbations, promoting or demoting specific models and reducing target-model uncertainty with fewer actions than previous manipulation and active-sampling baselines. By summarizing these effects with normalized dataset-level robustness scores, our framework provides a practical and helpful tool for auditing leaderboard stability and motivating more robust evaluation protocols.