Probabilistic Medical Predictions of Large Language Models

📄 arXiv: 2408.11316v2 📥 PDF

作者: Bowen Gu, Rishi J. Desai, Kueiyu Joshua Lin, Jie Yang

分类: cs.AI

发布日期: 2024-08-21 (更新: 2024-12-03)

备注: Preprint. Under review


💡 一句话要点

对比LLM生成概率与隐式概率,揭示其在医疗预测中的可靠性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗预测 概率估计 提示工程 临床决策

📋 核心要点

  1. 现有LLM在临床预测中难以产生可靠的概率估计,影响了决策的透明性和准确性。
  2. 论文对比了LLM通过文本生成得到的显式概率和基于token预测似然的隐式概率,评估其可靠性。
  3. 实验表明,在医疗预测任务中,隐式概率在区分度、精确度和召回率上优于显式概率,尤其是在小模型和不平衡数据集上。

📝 摘要(中文)

大型语言模型(LLMs)通过提示工程在临床应用中展现出潜力,实现了灵活的临床预测。然而,它们在生成可靠的预测概率方面存在困难,而预测概率对于透明度和决策至关重要。尽管显式提示可以引导LLMs生成概率估计,但其数值推理的局限性引发了对可靠性的担忧。本文比较了文本生成中获得的显式概率与通过预测正确标签token的可能性推导出的隐式概率。在六个先进的开源LLMs和五个医疗数据集上,显式概率在区分度、精确度和召回率方面始终不如隐式概率。这种差异在较小的LLMs和不平衡的数据集中更为明显,突出了谨慎解释、改进概率估计方法以及进一步研究LLMs在临床应用中的必要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在医疗预测中生成可靠概率估计的问题。现有的方法,即通过显式提示让LLMs直接生成概率值,受限于LLMs的数值推理能力,导致生成的概率值不可靠,无法有效支持临床决策。这种不可靠性在小模型和不平衡数据集上更加明显。

核心思路:论文的核心思路是对比LLMs生成的显式概率和隐式概率,从而评估LLMs在医疗预测中概率估计的可靠性。显式概率是指通过提示工程,直接让LLMs输出概率值;隐式概率则是通过计算LLMs预测正确标签token的似然度来间接获得。通过对比这两种概率,可以更全面地了解LLMs在概率估计方面的优缺点。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择六个先进的开源LLMs(具体模型名称未知)和五个医疗数据集(具体数据集名称未知);2) 使用提示工程,让LLMs生成显式概率;3) 通过计算LLMs预测正确标签token的似然度,获得隐式概率;4) 使用区分度、精确度和召回率等指标,对比显式概率和隐式概率的性能;5) 分析不同模型大小和数据集平衡性对概率估计的影响。

关键创新:论文的关键创新在于对比了LLMs在医疗预测中显式概率和隐式概率的性能,揭示了显式概率的不可靠性,并指出了其在小模型和不平衡数据集上表现更差的现象。这一发现对于LLMs在医疗领域的应用具有重要的指导意义,提醒研究者和从业者需要谨慎对待LLMs生成的概率值,并探索更可靠的概率估计方法。

关键设计:论文的关键设计包括:1) 提示工程的设计,如何有效地引导LLMs生成显式概率(具体提示方式未知);2) 隐式概率的计算方法,如何根据LLMs预测token的似然度来计算隐式概率(具体计算公式未知);3) 性能评估指标的选择,使用区分度、精确度和召回率等指标来全面评估概率估计的性能;4) 对不同模型大小和数据集平衡性的分析,考察这些因素对概率估计的影响。

📊 实验亮点

实验结果表明,在六个先进的开源LLMs和五个医疗数据集上,隐式概率在区分度、精确度和召回率方面始终优于显式概率。尤其是在较小的LLMs和不平衡的数据集中,这种差异更为明显。例如,在某个具体数据集上(具体数据未知),隐式概率的区分度比显式概率提升了X%(具体数值未知)。

🎯 应用场景

该研究成果可应用于医疗诊断辅助、风险评估、个性化治疗方案推荐等领域。通过更可靠的概率估计,可以提高临床决策的准确性和透明度,减少误诊和漏诊的风险。未来,可以结合领域知识和更先进的概率估计方法,进一步提升LLMs在医疗领域的应用价值。

📄 摘要(原文)

Large Language Models (LLMs) have shown promise in clinical applications through prompt engineering, allowing flexible clinical predictions. However, they struggle to produce reliable prediction probabilities, which are crucial for transparency and decision-making. While explicit prompts can lead LLMs to generate probability estimates, their numerical reasoning limitations raise concerns about reliability. We compared explicit probabilities from text generation to implicit probabilities derived from the likelihood of predicting the correct label token. Across six advanced open-source LLMs and five medical datasets, explicit probabilities consistently underperformed implicit probabilities in discrimination, precision, and recall. This discrepancy is more pronounced with smaller LLMs and imbalanced datasets, highlighting the need for cautious interpretation, improved probability estimation methods, and further research for clinical use of LLMs.