Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks

📄 arXiv: 2603.21636v1 📥 PDF

作者: Yiliang Song, Hongjun An, Jiangan Chen, Xuanchen Yan, Huan Song, Jiawei Shao, Xuelong Li

分类: cs.AI, cs.CL

发布日期: 2026-03-23

备注: First update


💡 一句话要点

提出LLM基准测试污染敏感性和置信度审计框架,评估基准测试的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 基准测试 数据污染 模型评估 泛化能力

📋 核心要点

  1. 现有LLM基准测试易受污染和语义泄露影响,导致分数不能真实反映模型的泛化能力。
  2. 提出审计框架,通过引入噪声条件(删除、重写、扰动问题)来评估基准测试的污染敏感性和分数置信度。
  3. 实验表明,噪声条件下模型性能普遍高于基线,说明模型可能依赖于基准测试中的记忆而非真实理解。

📝 摘要(中文)

公共基准测试日益主导大型语言模型(LLM)的排名、选择和部署。我们将这种以基准测试为中心的机制定义为“硅官僚主义”和“AI应试教育”,并认为它建立在一个脆弱的假设之上:基准测试分数直接反映了真正的泛化能力。然而,在实践中,这些分数可能会将应试能力与原则性能力混淆,尤其是在污染和语义泄露难以从现代训练流程中排除时。因此,我们提出了一个审计框架,用于分析LLM基准测试中的污染敏感性和分数置信度。使用路由器-工作器设置,我们将干净的控制条件与噪声条件进行比较,在噪声条件下,基准测试问题在传递到下游之前被系统地删除、重写和扰动。对于真正干净的基准测试,噪声条件不应始终优于干净的控制基线。然而,在多个模型中,我们发现噪声条件下普遍存在但异质性的高于基线的收益,表明与基准测试相关的线索可能会被重新组合并重新激活与污染相关的记忆。这些结果表明,相似的基准测试分数可能具有显着不同的置信度。我们认为,不应完全拒绝基准测试,而应通过对污染敏感性和分数置信度的显式审计来补充基于基准测试的评估。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)的评估严重依赖于公共基准测试。然而,这些基准测试容易受到数据污染的影响,即模型在训练过程中可能已经接触过基准测试的数据或其变体。这导致模型在基准测试上取得高分,但并不能真正反映其泛化能力。现有方法难以有效识别和量化这种污染带来的影响。

核心思路:本研究的核心思路是通过引入噪声来扰动基准测试,观察模型性能的变化。如果一个基准测试是“干净”的,即模型没有受到污染,那么在引入噪声后,模型性能应该下降。反之,如果模型性能在噪声条件下反而提升,则表明模型可能依赖于对基准测试的记忆,而非真正的理解。

技术框架:该研究采用了一个“路由器-工作器”的设置。路由器负责将基准测试问题分配给工作器。工作器在不同的条件下处理这些问题:(1) 清洁控制条件:问题保持不变;(2) 噪声条件:问题被删除、重写或扰动。然后,比较不同条件下模型的性能。如果噪声条件下的性能优于清洁控制条件,则表明存在污染敏感性。

关键创新:该研究的关键创新在于提出了一种通过引入噪声来审计基准测试污染敏感性的方法。这种方法不需要直接检查训练数据,而是通过观察模型在不同条件下的性能变化来推断是否存在污染。

关键设计:关键设计包括:(1) 噪声类型的选择:研究选择了删除、重写和扰动三种噪声类型,以模拟不同的污染场景;(2) 性能指标的选择:研究关注模型在不同条件下的绝对性能和相对性能变化;(3) 模型选择:研究选择了多个不同的LLM进行实验,以验证方法的通用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在多个LLM上,噪声条件下模型性能普遍高于清洁控制条件,这表明现有基准测试存在显著的污染敏感性。例如,某些模型在问题被重写或扰动后,性能反而提升了5%-10%。这些结果强调了对LLM基准测试进行污染审计的必要性。

🎯 应用场景

该研究提出的审计框架可用于评估和改进LLM基准测试的可靠性,帮助研究人员和开发者选择更具泛化能力的模型。该方法还可应用于其他机器学习模型的评估,提高模型评估的透明度和可信度,促进负责任的AI发展。

📄 摘要(原文)

Public benchmarks increasingly govern how large language models (LLMs) are ranked, selected, and deployed. We frame this benchmark-centered regime as Silicon Bureaucracy and AI Test-Oriented Education, and argue that it rests on a fragile assumption: that benchmark scores directly reflect genuine generalization. In practice, however, such scores may conflate exam-oriented competence with principled capability, especially when contamination and semantic leakage are difficult to exclude from modern training pipelines. We therefore propose an audit framework for analyzing contamination sensitivity and score confidence in LLM benchmarks. Using a router-worker setup, we compare a clean-control condition with noisy conditions in which benchmark problems are systematically deleted, rewritten, and perturbed before being passed downstream. For a genuinely clean benchmark, noisy conditions should not consistently outperform the clean-control baseline. Yet across multiple models, we find widespread but heterogeneous above-baseline gains under noisy conditions, indicating that benchmark-related cues may be reassembled and can reactivate contamination-related memory. These results suggest that similar benchmark scores may carry substantially different levels of confidence. Rather than rejecting benchmarks altogether, we argue that benchmark-based evaluation should be supplemented with explicit audits of contamination sensitivity and score confidence.