Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring

作者: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt

分类: cs.CL, cs.IR

发布日期: 2026-05-12

备注: Accepted at ACL 2026

期刊: Proceedings of the 64rd Annual Meeting of the Association for Computational Linguistics (ACL 2026)

💡 一句话要点

提出Q-DAPS方法，通过答案合理性评分估计大语言模型问题难度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 问题难度估计 大语言模型 答案合理性 熵 问答系统

📋 核心要点

现有问题难度评估方法难以捕捉大语言模型面临的复杂推理挑战，限制了模型评估的准确性。
Q-DAPS方法通过计算候选答案合理性评分的熵来估计问题难度，从而更准确地反映问题的复杂性。
实验表明，Q-DAPS在多个数据集上优于现有基线方法，并在不同设置下表现出良好的鲁棒性。

📝 摘要（中文）

本文提出了一种名为Q-DAPS（基于答案合理性评分的问题难度）的新方法，用于评估大语言模型在问答任务中的问题难度。现有方法通常依赖可读性公式、基于检索的信号或流行度统计，这些方法可能无法完全捕捉现代大语言模型所面临的推理挑战。Q-DAPS通过计算候选答案合理性评分的熵来估计问题难度。在TriviaQA、NQ、MuSiQue和QASC四个主流问答数据集上的系统评估表明，Q-DAPS始终优于基线方法。此外，Q-DAPS在超参数变化和问题类型方面表现出强大的鲁棒性。大量的消融研究进一步表明，Q-DAPS在不同的合理性估计范式、模型大小和实际设置中保持稳健。人工评估进一步证实了Q-DAPS的难度估计与人类对问题难度的判断高度一致。总而言之，Q-DAPS为现代问答系统中问题难度估计提供了一种可解释、可扩展且具有抗偏性的方法。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLM）问答系统中问题难度估计的问题。现有方法，如基于可读性公式、检索信号或流行度统计的方法，无法充分捕捉LLM在复杂推理场景下的难度。这些方法往往忽略了LLM生成答案的内在逻辑和合理性，导致评估结果与人类直觉不符。

核心思路：Q-DAPS的核心思路是，问题的难度可以通过候选答案的合理性评分分布来反映。如果一个问题有多个看似合理的答案，那么LLM需要更强的辨别能力才能给出正确答案，因此问题难度更高。通过计算候选答案合理性评分的熵，可以量化这种不确定性，从而估计问题难度。

技术框架：Q-DAPS方法主要包含以下几个阶段：1) 候选答案生成：使用LLM生成多个候选答案。2) 合理性评分：使用另一个LLM或模型对每个候选答案的合理性进行评分。3) 熵计算：基于所有候选答案的合理性评分，计算评分分布的熵。熵值越高，表示候选答案的合理性越分散，问题难度越高。整体流程简单清晰，易于实现和扩展。

关键创新：Q-DAPS的关键创新在于将答案的合理性评分与问题难度联系起来。与传统方法不同，Q-DAPS不依赖于问题的表面特征，而是关注LLM生成答案的内在属性。这种方法更贴近LLM的实际工作方式，能够更准确地反映问题的难度。此外，Q-DAPS具有良好的可解释性，可以通过分析候选答案的合理性评分来理解问题难度的来源。

关键设计：Q-DAPS的关键设计包括：1) 合理性评分模型的选择：可以使用不同的LLM或模型进行合理性评分，例如，可以使用预训练的语言模型进行微调。2) 熵的计算方式：可以使用不同的熵计算公式，例如，可以使用香农熵或Renyi熵。3) 超参数的调整：例如，候选答案的数量、合理性评分模型的阈值等。论文通过实验验证了Q-DAPS对不同合理性估计范式和模型大小的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Q-DAPS在TriviaQA、NQ、MuSiQue和QASC四个数据集上均优于基线方法。消融实验表明，Q-DAPS对不同的合理性估计范式、模型大小和实际设置具有鲁棒性。人工评估结果显示，Q-DAPS的难度估计与人类判断具有高度一致性，验证了该方法的有效性。

🎯 应用场景

Q-DAPS可应用于大语言模型的能力评估、模型训练数据选择、自适应学习系统设计等领域。通过准确估计问题难度，可以更有效地评估模型的性能，选择更具挑战性的训练数据，并为用户提供个性化的学习体验。该方法还有助于发现模型在特定类型问题上的弱点，从而指导模型改进。

📄 摘要（原文）

Estimating question difficulty is a critical component in evaluating and improving large language models (LLMs) for question answering (QA). Existing approaches often rely on readability formulas, retrieval-based signals, or popularity statistics, which may not fully capture the reasoning challenges posed to modern LLMs. In this paper, we introduce Q-DAPS (Question Difficulty based on Answer Plausibility Scores) method, a novel approach that estimates question difficulty by computing the entropy of plausibility scores over candidate answers. We systematically evaluate Q-DAPS across four prominent QA datasets-TriviaQA, NQ, MuSiQue, and QASC-demonstrating that it consistently outperforms baselines. Moreover, Q-DAPS shows strong robustness across hyperparameter variations and question types. Extensive ablation studies further show that Q-DAPS remains robust across different plausibility estimation paradigms, model sizes, and realistic settings. Human evaluations further confirm strong alignment between Q-DAPS's difficulty estimates and human judgments of question difficulty. Overall, Q-DAPS provides an interpretable, scalable, and bias-resilient approach to question difficulty estimation in modern QA systems.

Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理