Are We Evaluating Knowledge or Phrasing? Mitigating MCQA Sensitivity with ParaEval
作者: João Maria Janeiro, Mathurin Videau, Andrea Caciolai, Benjamin Piwowarski, Patrick Gallinari, Loic Barrault
分类: cs.CL
发布日期: 2026-06-09
💡 一句话要点
提出ParaEval以解决MCQA评估中的表述敏感性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多项选择题 评估框架 同义改写 语言模型 性能评估 自然语言处理 模型能力
📋 核心要点
- 现有的MCQA评估方法对答案表述的敏感性导致评估结果不可靠,无法真实反映模型能力。
- 本文提出ParaEval框架,通过对每个答案选项使用多个同义改写,减少表述敏感性。
- 实验结果表明,ParaEval将虚假的性能差距降低到1分以下,验证了其在大型模型中的有效性。
📝 摘要(中文)
多项选择题(MCQA)基准是评估预训练大型语言模型的标准,但其依赖于对数似然评分,使得评估结果不可靠。具体而言,标准评分对答案的确切表述高度敏感,将模型对特定短语的熟悉度与其实际能力混淆。本文通过对1B-8B模型的控制测试,展示了这一缺陷。尽管知识相同,标准指标却错误地报告了超过2分的性能差距。为此,本文提出了ParaEval评估框架,通过对每个答案选项使用多个同义改写进行查询,成功将虚假的性能差距降低到1分以下。我们确认这些评估伪影及ParaEval的改进在70B和120B的开源模型中依然存在。最终,ParaEval提供了一种稳健高效的评估方法,能够评估真实的潜在能力而非表面熟悉度。
🔬 方法详解
问题定义:论文要解决的问题是现有MCQA评估方法对答案表述的敏感性,这导致模型的实际能力与表述熟悉度混淆,造成评估结果不准确。现有方法在相同知识背景下,可能错误地报告出显著的性能差距。
核心思路:论文的核心解决思路是引入ParaEval评估框架,通过对每个答案选项使用多个同义改写进行查询,从而减少对特定表述的依赖,确保评估更能反映模型的真实能力。
技术框架:ParaEval的整体架构包括多个阶段:首先生成每个答案选项的同义改写,然后对模型进行查询并记录其对不同表述的响应,最后根据模型在最有利表述下的表现进行评分。
关键创新:最重要的技术创新点在于通过多重同义改写来评估模型,显著降低了因表述差异导致的虚假性能差距。这一方法与传统的单一表述评分方法本质上不同,提供了更全面的评估视角。
关键设计:在设计中,ParaEval使用了多种同义改写生成技术,并结合了模型的响应评分机制,以确保评估的公平性和准确性。具体的参数设置和损失函数设计尚未详细披露,需进一步研究。
🖼️ 关键图片
📊 实验亮点
实验结果显示,使用ParaEval框架后,模型在相同知识背景下的虚假性能差距被成功降低到1分以下,相较于传统方法的2分以上的差距,提升幅度显著。这一结果在70B和120B的开源模型中得到了验证,表明ParaEval的广泛适用性和有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理中的模型评估、教育领域的自动评分系统,以及任何需要评估语言模型能力的场景。通过提供更准确的评估方法,ParaEval能够帮助研究人员和开发者更好地理解和改进模型性能,推动相关技术的发展。未来,ParaEval可能会成为评估大型语言模型的标准工具。
📄 摘要(原文)
Multiple-choice (MCQA) benchmarks are the standard for evaluating pretrained large language models, but their reliance on log-likelihood scoring makes them unreliable. Specifically, standard scores are highly sensitive to the exact phrasing (surface form) of the answers, conflating a model's familiarity with a specific phrase with its actual capability. We demonstrate this flaw using a controlled testbed of 1B-8B models trained on the same knowledge. Despite having identical knowledge, standard metrics falsely report a performance gap of over 2 points. To solve this, we propose ParaEval, an evaluation framework that queries models using multiple paraphrases per answer option. By scoring each model based on its most favorable phrasing, ParaEval successfully reduces the false performance gap to below 1 point. We confirm that these evaluation artifacts, and the improvements from ParaEval, persist in frontier 70B and 120B open-source models. Ultimately, ParaEval provides a robust and efficient way to evaluate true underlying capability rather than surface-form familiarity.