Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring

📄 arXiv: 2605.12398v1 📥 PDF

作者: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt

分类: cs.CL, cs.IR

发布日期: 2026-05-12

备注: Accepted at ACL 2026

期刊: Proceedings of the 64rd Annual Meeting of the Association for Computational Linguistics (ACL 2026)


💡 一句话要点

提出Q-DAPS方法,通过答案合理性评分估计大语言模型问题难度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 问题难度估计 大语言模型 答案合理性 问答系统

📋 核心要点

  1. 现有问题难度评估方法难以捕捉大语言模型面临的复杂推理挑战,限制了模型评估的准确性。
  2. Q-DAPS方法通过计算候选答案合理性评分的熵来估计问题难度,从而更准确地反映问题的复杂性。
  3. 实验表明,Q-DAPS在多个数据集上优于现有基线方法,并在不同设置下表现出良好的鲁棒性。

📝 摘要(中文)

本文提出了一种名为Q-DAPS(基于答案合理性评分的问题难度)的新方法,用于评估大语言模型在问答任务中的问题难度。现有方法通常依赖可读性公式、基于检索的信号或流行度统计,这些方法可能无法完全捕捉现代大语言模型所面临的推理挑战。Q-DAPS通过计算候选答案合理性评分的熵来估计问题难度。在TriviaQA、NQ、MuSiQue和QASC四个主流问答数据集上的系统评估表明,Q-DAPS始终优于基线方法。此外,Q-DAPS在超参数变化和问题类型方面表现出强大的鲁棒性。大量的消融研究进一步表明,Q-DAPS在不同的合理性估计范式、模型大小和实际设置中保持稳健。人工评估进一步证实了Q-DAPS的难度估计与人类对问题难度的判断高度一致。总而言之,Q-DAPS为现代问答系统中问题难度估计提供了一种可解释、可扩展且具有抗偏性的方法。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)问答系统中问题难度估计的问题。现有方法,如基于可读性公式、检索信号或流行度统计的方法,无法充分捕捉LLM在复杂推理场景下的难度。这些方法往往忽略了LLM生成答案的内在逻辑和合理性,导致评估结果与人类直觉不符。

核心思路:Q-DAPS的核心思路是,问题的难度可以通过候选答案的合理性评分分布来反映。如果一个问题有多个看似合理的答案,那么LLM需要更强的辨别能力才能给出正确答案,因此问题难度更高。通过计算候选答案合理性评分的熵,可以量化这种不确定性,从而估计问题难度。

技术框架:Q-DAPS方法主要包含以下几个阶段:1) 候选答案生成:使用LLM生成多个候选答案。2) 合理性评分:使用另一个LLM或模型对每个候选答案的合理性进行评分。3) 熵计算:基于所有候选答案的合理性评分,计算评分分布的熵。熵值越高,表示候选答案的合理性越分散,问题难度越高。整体流程简单清晰,易于实现和扩展。

关键创新:Q-DAPS的关键创新在于将答案的合理性评分与问题难度联系起来。与传统方法不同,Q-DAPS不依赖于问题的表面特征,而是关注LLM生成答案的内在属性。这种方法更贴近LLM的实际工作方式,能够更准确地反映问题的难度。此外,Q-DAPS具有良好的可解释性,可以通过分析候选答案的合理性评分来理解问题难度的来源。

关键设计:Q-DAPS的关键设计包括:1) 合理性评分模型的选择:可以使用不同的LLM或模型进行合理性评分,例如,可以使用预训练的语言模型进行微调。2) 熵的计算方式:可以使用不同的熵计算公式,例如,可以使用香农熵或Renyi熵。3) 超参数的调整:例如,候选答案的数量、合理性评分模型的阈值等。论文通过实验验证了Q-DAPS对不同合理性估计范式和模型大小的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Q-DAPS在TriviaQA、NQ、MuSiQue和QASC四个数据集上均优于基线方法。消融实验表明,Q-DAPS对不同的合理性估计范式、模型大小和实际设置具有鲁棒性。人工评估结果显示,Q-DAPS的难度估计与人类判断具有高度一致性,验证了该方法的有效性。

🎯 应用场景

Q-DAPS可应用于大语言模型的能力评估、模型训练数据选择、自适应学习系统设计等领域。通过准确估计问题难度,可以更有效地评估模型的性能,选择更具挑战性的训练数据,并为用户提供个性化的学习体验。该方法还有助于发现模型在特定类型问题上的弱点,从而指导模型改进。

📄 摘要(原文)

Estimating question difficulty is a critical component in evaluating and improving large language models (LLMs) for question answering (QA). Existing approaches often rely on readability formulas, retrieval-based signals, or popularity statistics, which may not fully capture the reasoning challenges posed to modern LLMs. In this paper, we introduce Q-DAPS (Question Difficulty based on Answer Plausibility Scores) method, a novel approach that estimates question difficulty by computing the entropy of plausibility scores over candidate answers. We systematically evaluate Q-DAPS across four prominent QA datasets-TriviaQA, NQ, MuSiQue, and QASC-demonstrating that it consistently outperforms baselines. Moreover, Q-DAPS shows strong robustness across hyperparameter variations and question types. Extensive ablation studies further show that Q-DAPS remains robust across different plausibility estimation paradigms, model sizes, and realistic settings. Human evaluations further confirm strong alignment between Q-DAPS's difficulty estimates and human judgments of question difficulty. Overall, Q-DAPS provides an interpretable, scalable, and bias-resilient approach to question difficulty estimation in modern QA systems.