The Evaluation Gap in Medicine, AI and LLMs: Navigating Elusive Ground Truth & Uncertainty via a Probabilistic Paradigm
作者: Aparna Elangovan, Lei Xu, Mahsa Elyasi, Ismail Akdulum, Mehmet Aksakal, Enes Gurun, Brian Hur, Saab Mansour, Ravid Shwartz Ziv, Karin Verspoor, Dan Roth
分类: cs.AI
发布日期: 2026-01-09
💡 一句话要点
提出基于概率范式的评估方法,解决医学AI和LLM中ground truth不确定性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 概率评估 ground truth不确定性 医学AI 大型语言模型 期望准确率 分层评估 专家一致性
📋 核心要点
- 现有AI系统评估忽略了医学等领域ground truth答案的不确定性,导致评估结果偏差。
- 论文提出概率范式,通过专家一致性衡量ground truth概率,从而更准确评估模型性能。
- 研究表明,当整体性能低于80%时,按ground truth概率分层评估至关重要,可有效缓解不确定性影响。
📝 摘要(中文)
对包括大型语言模型(LLM)和视觉模型在内的AI系统进行基准测试时,通常忽略了专家提供的ground truth答案中存在的不确定性。这种模糊性在医学领域尤为重要,因为不确定性普遍存在。本文提出了一种概率范式,从理论上解释了为什么ground truth答案的高确定性几乎总是专家获得高分的必要条件,而在ground truth答案差异较大的数据集中,随机标注者和专家之间的差异可能很小。因此,忽略ground truth评估数据中的不确定性可能会导致误导性的结论,即非专家的表现与专家相似。利用概率范式,我们提出了期望准确率和期望F1的概念,以估计在ground truth答案存在变异性的情况下,专家或系统可以达到的分数。
🔬 方法详解
问题定义:论文旨在解决医学AI和LLM评估中,由于ground truth答案不确定性导致的评估偏差问题。现有评估方法通常假设ground truth是唯一的、确定的,忽略了医学领域专家意见可能存在分歧的情况。这种忽略会导致非专家系统被误认为具有与专家相似的性能,从而影响对AI系统能力的正确判断。
核心思路:论文的核心思路是引入概率范式来建模ground truth的不确定性。具体来说,通过测量ground truth专家之间的一致性来估计ground truth答案的概率。然后,基于这个概率,计算期望准确率和期望F1等指标,从而更准确地评估AI系统的性能。这种方法考虑了ground truth的不确定性,避免了对AI系统能力的过度或不足评估。
技术框架:论文提出的评估框架主要包含以下几个阶段:1) 收集ground truth数据,并由多位专家进行标注;2) 计算专家之间的一致性,作为ground truth答案概率的估计;3) 基于ground truth概率,计算期望准确率和期望F1等评估指标;4) 对评估结果进行分层,按照ground truth概率进行分组,分别计算各组的性能指标。
关键创新:论文最重要的技术创新点在于引入了概率范式来建模ground truth的不确定性。与传统的评估方法不同,该方法不再假设ground truth是唯一的、确定的,而是将其视为一个概率分布。这种方法更符合实际情况,可以更准确地评估AI系统的性能。
关键设计:论文的关键设计包括:1) 使用专家一致性作为ground truth概率的估计;2) 定义了期望准确率和期望F1等新的评估指标,这些指标考虑了ground truth的不确定性;3) 提出了分层评估的方法,可以更清晰地展示AI系统在不同确定性水平下的性能表现。
📊 实验亮点
论文强调,当整体性能低于80%时,按照ground truth答案的概率进行分层评估至关重要。通过分层评估,可以更清晰地了解AI系统在不同确定性水平下的性能表现,从而避免因ground truth不确定性而导致的误判。这种分层评估方法可以有效缓解不确定性带来的影响,使性能比较在高度确定的数据集中更加可靠。
🎯 应用场景
该研究成果可应用于医学影像诊断、自然语言处理等领域,特别是涉及专家意见不一致的场景。通过更准确地评估AI系统的性能,可以促进AI技术在医疗领域的可靠应用,并为临床决策提供更可靠的依据。此外,该方法也适用于其他领域,例如法律、金融等,凡是需要专家判断且存在不确定性的场景都适用。
📄 摘要(原文)
Benchmarking the relative capabilities of AI systems, including Large Language Models (LLMs) and Vision Models, typically ignores the impact of uncertainty in the underlying ground truth answers from experts. This ambiguity is particularly consequential in medicine where uncertainty is pervasive. In this paper, we introduce a probabilistic paradigm to theoretically explain how high certainty in ground truth answers is almost always necessary for even an expert to achieve high scores, whereas in datasets with high variation in ground truth answers there may be little difference between a random labeller and an expert. Therefore, ignoring uncertainty in ground truth evaluation data can result in the misleading conclusion that a non-expert has similar performance to that of an expert. Using the probabilistic paradigm, we thus bring forth the concepts of expected accuracy and expected F1 to estimate the score an expert human or system can achieve given ground truth answer variability. Our work leads to the recommendation that when establishing the capability of a system, results should be stratified by probability of the ground truth answer, typically measured by the agreement rate of ground truth experts. Stratification becomes critical when the overall performance drops below a threshold of 80%. Under stratified evaluation, performance comparison becomes more reliable in high certainty bins, mitigating the effect of the key confounding factor -- uncertainty.