Forget What You Know about LLMs Evaluations -- LLMs are Like a Chameleon

📄 arXiv: 2502.07445v2 📥 PDF

作者: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-11 (更新: 2025-09-17)


💡 一句话要点

提出C-BOD框架,用于检测大型语言模型在基准测试中的过拟合现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 过拟合检测 提示工程 泛化能力 鲁棒性评估

📋 核心要点

  1. 现有LLM在基准测试中表现优异,但可能过度依赖数据集的表面线索,缺乏真正的语言理解能力。
  2. C-BOD框架通过参数化转换扭曲基准测试提示,检测LLM是否过度拟合,从而评估模型的泛化能力。
  3. 实验表明,许多LLM在提示扰动下性能显著下降,表明其过度依赖固定提示模式,泛化能力不足。

📝 摘要(中文)

大型语言模型(LLMs)在公开基准测试中表现出色,但这些高分可能掩盖了模型过度依赖数据集特定的表面线索,而非真正的语言理解。我们提出了Chameleon Benchmark Overfit Detector (C-BOD),这是一个元评估框架,通过参数化转换系统地扭曲基准测试提示,并检测LLMs的过拟合。通过在保持语义内容和标签的同时,重新措辞输入,C-BOD揭示了模型的性能是否由记忆的模式驱动。在MMLU基准测试中使用26个领先的LLMs进行评估,我们的方法显示,在适度的扰动下,平均性能下降了2.15%,其中26个模型中有20个表现出统计学上的显著差异。值得注意的是,基线准确率较高的模型在扰动下表现出更大的性能差异,而较大的LLMs往往对重新措辞更敏感,这表明这两种情况都可能过度依赖固定的提示模式。相比之下,Llama系列和基线准确率较低的模型表现出不显著的退化,表明对表面线索的依赖性降低。此外,C-BOD的数据集和模型无关设计允许轻松集成到训练管道中,以促进更强大的语言理解。我们的发现挑战社区超越排行榜分数,并优先考虑LLM评估中的弹性和泛化能力。

🔬 方法详解

问题定义:现有的大型语言模型在基准测试中取得了很高的分数,但这些分数可能具有误导性。模型可能不是真正理解了语言,而是仅仅记住了训练数据中的特定模式和表面线索。这导致模型在面对稍微不同的输入时,性能会显著下降。因此,需要一种方法来评估模型是否过度拟合了基准测试数据,并检测其泛化能力。

核心思路:C-BOD的核心思路是通过对基准测试的提示进行参数化的转换,生成语义上等价但表达方式不同的新提示。如果模型过度拟合了原始的提示,那么在面对这些新的提示时,其性能应该会显著下降。通过比较模型在原始提示和扰动提示上的性能,可以评估模型对表面线索的依赖程度,从而检测其过拟合现象。

技术框架:C-BOD框架包含以下几个主要步骤:1) 选择一个基准测试数据集。2) 定义一组参数化的提示转换规则,这些规则可以在保持语义不变的情况下,改变提示的表达方式。3) 使用这些转换规则,生成原始提示的多个变体。4) 使用LLM在原始提示和扰动提示上进行推理。5) 比较模型在两种提示上的性能,并计算性能下降的程度。性能下降越大,说明模型对表面线索的依赖程度越高,过拟合的风险也越大。

关键创新:C-BOD的关键创新在于其提出了一种系统化的方法来检测LLM的过拟合现象。与传统的评估方法不同,C-BOD不是简单地评估模型在原始数据集上的性能,而是通过对提示进行扰动,来评估模型的泛化能力。这种方法可以有效地揭示模型对表面线索的依赖程度,从而更准确地评估模型的真实性能。此外,C-BOD的设计是数据集和模型无关的,可以很容易地应用于不同的基准测试和LLM。

关键设计:C-BOD的关键设计在于其参数化的提示转换规则。这些规则需要能够在保持语义不变的情况下,改变提示的表达方式。论文中使用了多种转换规则,例如同义词替换、句子重组、语态转换等。这些规则的参数可以控制转换的强度,从而可以对提示进行不同程度的扰动。此外,C-BOD还使用了统计显著性检验来确定模型在原始提示和扰动提示上的性能差异是否显著。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MMLU基准测试中,使用C-BOD评估了26个领先的LLM,结果显示,在适度的提示扰动下,平均性能下降了2.15%,其中20个模型表现出统计学上的显著差异。基线准确率较高的模型和较大的LLM对提示扰动更敏感,性能下降更明显。Llama系列和基线准确率较低的模型表现出较好的鲁棒性,性能下降不显著。

🎯 应用场景

C-BOD可用于评估和改进大型语言模型的鲁棒性和泛化能力,帮助开发者选择更可靠的模型。该框架可集成到LLM的训练流程中,通过对抗训练等方式,提高模型对不同表达方式的适应性,减少对表面线索的依赖,从而提升模型在实际应用中的性能和可靠性。此外,C-BOD还可以用于检测和缓解基准测试中的数据污染问题。

📄 摘要(原文)

Large language models (LLMs) often appear to excel on public benchmarks, but these high scores may mask an overreliance on dataset-specific surface cues rather than true language understanding. We introduce the Chameleon Benchmark Overfit Detector (C-BOD), a meta-evaluation framework that systematically distorts benchmark prompts via a parametric transformation and detects overfitting of LLMs. By rephrasing inputs while preserving their semantic content and labels, C-BOD exposes whether a model's performance is driven by memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our method reveals an average performance degradation of 2.15% under modest perturbations, with 20 out of 26 models exhibiting statistically significant differences. Notably, models with higher baseline accuracy exhibit larger performance differences under perturbation, and larger LLMs tend to be more sensitive to rephrasings, indicating that both cases may overrely on fixed prompt patterns. In contrast, the Llama family and models with lower baseline accuracy show insignificant degradation, suggesting reduced dependency on superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows easy integration into training pipelines to promote more robust language understanding. Our findings challenge the community to look beyond leaderboard scores and prioritize resilience and generalization in LLM evaluation.