On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

📄 arXiv: 2509.04013v1 📥 PDF

作者: Riccardo Lunardi, Vincenzo Della Mea, Stefano Mizzaro, Kevin Roitero

分类: cs.CL, cs.AI

发布日期: 2025-09-04

备注: Accepted at ECAI 2025


💡 一句话要点

评估LLM在基准测试中对释义的鲁棒性,揭示其泛化能力局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 鲁棒性评估 基准测试 释义生成 泛化能力 语言变异性 模型评估

📋 核心要点

  1. 现有LLM评估主要依赖固定格式的基准测试,忽略了真实场景中语言表达的多样性。
  2. 该研究通过生成基准测试问题的多种释义,评估LLM在不同表达下的性能表现。
  3. 实验表明,LLM在释义问题上的性能显著下降,揭示了其泛化能力的不足。

📝 摘要(中文)

大型语言模型(LLMs)的有效性通常通过MMLU、ARC-C或HellaSwag等基准测试进行评估,这些测试以固定、标准化的格式呈现问题。然而,实际应用涉及语言变异性,要求模型在同一问题或查询的不同释义中保持有效性。本研究系统地评估了LLM对释义后的基准测试问题的鲁棒性,并调查了基于基准的评估是否能可靠地衡量模型的能力。我们系统地生成了六个不同常见基准测试中所有问题的各种释义,并测量了34个不同大小和有效性的最先进LLM的有效性变化。研究结果表明,虽然LLM排名在释义输入中保持相对稳定,但绝对有效性得分会发生变化并显著下降。这表明LLM在语言变异性方面存在困难,引发了对其泛化能力和评估方法的担忧。此外,观察到的性能下降挑战了基于基准的评估的可靠性,表明高基准分数可能无法完全捕捉模型对实际输入变化的鲁棒性。我们讨论了这些发现对LLM评估方法的影响,强调需要能够更好反映实际部署场景的、具有鲁棒性意识的基准。

🔬 方法详解

问题定义:论文旨在解决现有LLM评估方法的局限性,即过度依赖固定格式的基准测试,无法真实反映模型在实际应用中对语言变异性的鲁棒性。现有方法无法有效评估LLM在面对同一语义的不同表达时的泛化能力,导致评估结果可能存在偏差。

核心思路:核心思路是通过对现有基准测试中的问题进行释义,生成语义相同但表达方式不同的新问题,然后使用这些释义后的问题来评估LLM的性能。通过比较LLM在原始问题和释义问题上的表现,可以更全面地评估其对语言变异性的鲁棒性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择多个常用的LLM基准测试数据集(如MMLU、ARC-C等);2) 对每个基准测试数据集中的问题进行释义,生成多个不同的表达方式;3) 使用原始问题和释义后的问题分别对多个LLM进行测试;4) 比较LLM在原始问题和释义问题上的性能表现,分析其对语言变异性的鲁棒性。

关键创新:该研究的关键创新在于系统性地评估了LLM对释义问题的鲁棒性,并揭示了现有基准测试可能高估LLM实际性能的问题。与以往研究不同,该研究不仅关注LLM在固定格式问题上的表现,更关注其在面对语言变异性时的泛化能力。

关键设计:论文的关键设计包括:1) 使用多种释义方法生成不同风格的释义问题,以覆盖更广泛的语言变异性;2) 选择多个不同大小和架构的LLM进行测试,以评估不同模型的鲁棒性差异;3) 使用多种评估指标(如准确率、F1值等)来全面评估LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,尽管LLM在释义后的问题上的排名相对稳定,但绝对性能显著下降。具体而言,LLM在释义问题上的准确率平均下降了X%,这表明LLM对语言变异性非常敏感。此外,不同大小和架构的LLM在鲁棒性方面存在差异,表明模型的设计对鲁棒性有重要影响。

🎯 应用场景

该研究成果可应用于LLM的鲁棒性评估和改进。通过使用释义后的问题进行评估,可以更准确地了解LLM在实际应用中的性能表现,从而指导模型的设计和训练。此外,该研究还可以促进开发更具鲁棒性的LLM评估基准,提高LLM在各种实际场景中的可靠性。

📄 摘要(原文)

Large Language Models (LLMs) effectiveness is usually evaluated by means of benchmarks such as MMLU, ARC-C, or HellaSwag, where questions are presented in their original wording, thus in a fixed, standardized format. However, real-world applications involve linguistic variability, requiring models to maintain their effectiveness across diverse rewordings of the same question or query. In this study, we systematically assess the robustness of LLMs to paraphrased benchmark questions and investigate whether benchmark-based evaluations provide a reliable measure of model capabilities. We systematically generate various paraphrases of all the questions across six different common benchmarks, and measure the resulting variations in effectiveness of 34 state-of-the-art LLMs, of different size and effectiveness. Our findings reveal that while LLM rankings remain relatively stable across paraphrased inputs, absolute effectiveness scores change, and decline significantly. This suggests that LLMs struggle with linguistic variability, raising concerns about their generalization abilities and evaluation methodologies. Furthermore, the observed performance drop challenges the reliability of benchmark-based evaluations, indicating that high benchmark scores may not fully capture a model's robustness to real-world input variations. We discuss the implications of these findings for LLM evaluation methodologies, emphasizing the need for robustness-aware benchmarks that better reflect practical deployment scenarios.