Reasoning Models are Test Exploiters: Rethinking Multiple-Choice

📄 arXiv: 2507.15337v2 📥 PDF

作者: Narun Raman, Taylor Lundy, Kevin Leyton-Brown

分类: cs.CL

发布日期: 2025-07-21 (更新: 2025-10-02)

备注: 9 pages, 4 figures


💡 一句话要点

揭示推理模型在多项选择题中的作弊行为,重新评估其推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多项选择问答 推理能力评估 思维链 提示工程

📋 核心要点

  1. 现有MCQA评估方法可能高估了LLM的真实推理能力,因为模型可能利用选项中的信息作弊。
  2. 通过控制思维链推理的位置(选项前/后),研究模型在MCQA中的作弊行为,并量化其影响。
  3. 实验表明,允许在选项后进行推理的模型在MCQA中表现更好,但可能无法反映其真实的下游性能。

📝 摘要(中文)

在问答领域评估大型语言模型(LLM)时,通常要求模型从一组固定选项中选择答案(即多项选择问答,MCQA)。尽管感兴趣的下游任务通常不向系统提供明确的选择,但这种方法被广泛使用,因为它使自动评分变得简单,并且往往会产生具有挑战性的基准,这些基准与下游性能充分相关。本文研究了这种趋势对于最先进的推理模型是否仍然成立,描述了对15个不同的问答基准(例如,MMLU,GSM8K)和27个不同的LLM(包括小型模型如Qwen-2.5 7B,中型模型如Llama-3.3 70B,以及大型最先进的模型如OpenAI的o3)的系统评估。对于每个模型-基准对,我们考虑了5种向模型呈现问题的方式,包括是否向模型提供多个选择的变体;“以上皆非”有时是否取代了正确答案;以及是否允许模型在呈现选择之前和/或之后执行思维链推理。只要允许模型仅在被呈现选项之前执行思维链推理,MCQA仍然是模型下游性能的良好代理。另一方面,能够在给出选项集之后执行推理的大型模型,由于利用了选项中的信息,往往会显著优于其自由文本性能。我们识别并量化了模型在回答MCQA问题时使用的信号,并提供了在分析MCQA结果时更好地反映LLM真正推理能力的实用指南。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在多项选择问答(MCQA)评估中可能存在的“作弊”问题。现有方法中,模型在看到选项后进行推理,可能利用选项中的信息来猜测答案,而非真正理解问题并进行推理,导致评估结果失真。

核心思路:核心思路是通过控制思维链(Chain-of-Thought, CoT)推理的位置,即在给出选项之前或之后,来区分模型是真正基于理解进行推理,还是利用选项信息进行猜测。如果模型在看到选项后才进行CoT推理,那么其性能提升可能来自于对选项的利用,而非真正的推理能力。

技术框架:论文采用了一种系统性的评估框架,包括:1)选择15个不同的问答基准数据集(如MMLU、GSM8K);2)选择27个不同规模的LLM(如Qwen-2.5 7B、Llama-3.3 70B、OpenAI的o3);3)设计5种不同的问题呈现方式,包括是否提供选项、是否包含“以上皆非”选项、以及CoT推理的位置(选项前、选项后、无CoT)。通过对比不同设置下的模型性能,分析模型对选项信息的利用程度。

关键创新:关键创新在于提出了通过控制CoT推理位置来区分模型真实推理能力和作弊行为的方法。传统MCQA评估方法没有区分这两种情况,可能导致对模型推理能力的错误评估。论文的方法能够更准确地反映模型的真实推理能力。

关键设计:论文的关键设计包括:1)CoT提示工程:设计清晰的CoT提示,引导模型进行推理;2)问题呈现方式的控制:系统性地改变问题呈现方式,以分析模型对不同信息的利用程度;3)性能指标的对比:对比不同设置下模型的准确率,以量化模型对选项信息的利用程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,允许在选项后进行推理的大型模型在MCQA任务中表现显著优于自由文本生成,但这种提升可能并非源于更强的推理能力,而是由于模型利用了选项中的信息。当限制模型只能在选项前进行推理时,MCQA的性能更能反映其真实的下游任务性能。

🎯 应用场景

该研究成果可应用于更准确地评估大型语言模型的推理能力,避免因模型利用多项选择题的特性而产生误导性结果。这有助于开发更可靠的评估基准,并推动LLM在需要真实推理能力的实际应用中的发展,例如智能客服、决策支持系统和教育辅导等。

📄 摘要(原文)

When evaluating Large Language Models (LLMs) in question answering domains, it is common to ask the model to choose among a fixed set of choices (so-called multiple-choice question-answering, or MCQA). Although downstream tasks of interest typically do not provide systems with explicit options among which to choose, this approach is nevertheless widely used because it makes automatic grading straightforward and has tended to produce challenging benchmarks that correlate sufficiently well with downstream performance. This paper investigates the extent to which this trend continues to hold for state-of-the-art reasoning models, describing a systematic evaluation of 15 different question-answering benchmarks (e.g., MMLU, GSM8K) and 27 different LLMs (including small models such as Qwen-2.5 7B, mid-sized models such as Llama-3.3 70B, and large state-of-the-art models such as OpenAI's o3). For each model--benchmark pair, we considered 5 ways of presenting the model with questions, including variations on whether multiple choices were offered to the model at all; whether "none of the above" sometimes replaced the right answer; and whether the model was permitted to perform chain-of-thought reasoning before and/or after the choices were presented. MCQA remained a good proxy for the downstream performance of models as long as they were allowed to perform chain-of-thought reasoning only \emph{before} being presented with the options among which they had to select. On the other hand, large models that were able to perform reasoning \emph{after} being given a set of options tended to significantly outperform their free-text performance due to exploiting the information in the options. We identify and quantify the signals models are using when answering MCQA questions, and offer practical guidelines when analyzing results from MCQA that better reflect LLMs' genuine reasoning capabilities.