Uncertainty Quantification of Large Language Models using Approximate Bayesian Computation
作者: Mridul Sharma, Adeetya Patel, Zaneta D' Souza, Samira Abbasgholizadeh Rahimi, Siva Reddy, Sreenath Madathil
分类: cs.LG, cs.AI, stat.ML
发布日期: 2025-09-19
💡 一句话要点
提出基于近似贝叶斯计算的大语言模型不确定性量化方法,提升临床诊断可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 不确定性量化 近似贝叶斯计算 临床诊断 模型校准
📋 核心要点
- 大语言模型在不确定性表达方面存在不足,导致其在安全关键领域应用受限。
- 论文提出近似贝叶斯计算(ABC)方法,将LLM视为随机模拟器进行后验分布推断。
- 实验表明,该方法在临床诊断数据集上显著提升了准确率和校准效果。
📝 摘要(中文)
大语言模型(LLM)虽然应用广泛,但在表达不确定性方面存在困难,这给其在临床诊断等高风险和安全关键领域的可靠部署带来了挑战。现有的标准基线方法,如模型logits和概率引导,会产生过度自信和校准不良的估计。本文提出了一种基于近似贝叶斯计算(ABC)的方法,这是一种无需似然函数的贝叶斯推断方法,它将LLM视为随机模拟器,以推断预测概率的后验分布。我们在两个临床相关的基准数据集上评估了我们的ABC方法:一个合成的口腔病变诊断数据集和一个公开的GretelAI症状到诊断数据集。与标准基线相比,我们的方法将准确率提高了高达46.9%,Brier分数降低了74.4%,并提高了校准效果,如预期校准误差(ECE)和预测熵所衡量。
🔬 方法详解
问题定义:大语言模型在临床诊断等高风险领域应用时,需要准确量化其预测的不确定性。然而,现有方法(如直接使用模型输出的logits或概率)往往会产生过度自信且校准不良的预测,导致决策风险增高。因此,如何有效量化LLM的不确定性,提高其预测的可靠性,是本文要解决的核心问题。
核心思路:本文的核心思路是将大语言模型视为一个随机模拟器,通过近似贝叶斯计算(ABC)来推断预测概率的后验分布。ABC方法是一种无需似然函数的贝叶斯推断方法,它通过比较模拟数据和真实数据的相似性来估计后验分布。这种方法避免了直接计算复杂的似然函数,适用于难以直接建模的复杂系统,如大语言模型。
技术框架:该方法主要包含以下几个阶段: 1. 定义先验分布:为LLM的预测概率设置一个先验分布。 2. LLM模拟:使用LLM对输入数据进行预测,得到模拟的预测概率。 3. 相似性度量:定义一个相似性函数,用于比较模拟的预测概率和真实数据(或标签)。 4. 后验推断:使用ABC算法,基于相似性度量,更新预测概率的后验分布。ABC算法会接受与真实数据足够相似的模拟结果,并拒绝不相似的结果,从而逐步逼近真实的后验分布。
关键创新:该方法最重要的创新在于将近似贝叶斯计算(ABC)应用于大语言模型的不确定性量化。与传统的基于logits或概率的方法相比,ABC方法能够更准确地捕捉LLM的预测不确定性,并提供更可靠的预测概率估计。此外,该方法无需直接计算复杂的似然函数,适用于难以直接建模的大语言模型。
关键设计:关键设计包括: 1. 相似性函数:选择合适的相似性函数至关重要,常用的相似性函数包括欧氏距离、曼哈顿距离等。论文中使用的具体相似性函数未知。 2. 先验分布:先验分布的选择会影响后验推断的结果。需要根据具体问题选择合适的先验分布,例如均匀分布、高斯分布等。论文中使用的具体先验分布未知。 3. ABC算法参数:ABC算法需要设置一些参数,例如接受率、迭代次数等。这些参数会影响后验推断的精度和效率。论文中使用的具体参数设置未知。
📊 实验亮点
实验结果表明,与标准基线方法相比,该方法在临床诊断数据集上显著提升了性能。在合成口腔病变诊断数据集和GretelAI症状到诊断数据集上,准确率分别提高了高达46.9%,Brier分数降低了74.4%,并且通过预期校准误差(ECE)和预测熵的指标验证了校准效果的提升。这些结果表明,该方法能够更准确地量化大语言模型的不确定性,并提供更可靠的预测。
🎯 应用场景
该研究成果可应用于医疗诊断、金融风控、自动驾驶等对可靠性要求高的领域。通过量化大语言模型的不确定性,可以提高决策的安全性,降低误判风险。例如,在医疗诊断中,可以帮助医生更好地评估诊断结果的可信度,避免误诊漏诊。未来,该方法有望推广到其他类型的大模型和更广泛的应用场景。
📄 摘要(原文)
Despite their widespread applications, Large Language Models (LLMs) often struggle to express uncertainty, posing a challenge for reliable deployment in high stakes and safety critical domains like clinical diagnostics. Existing standard baseline methods such as model logits and elicited probabilities produce overconfident and poorly calibrated estimates. In this work, we propose Approximate Bayesian Computation (ABC), a likelihood-free Bayesian inference, based approach that treats LLMs as a stochastic simulator to infer posterior distributions over predictive probabilities. We evaluate our ABC approach on two clinically relevant benchmarks: a synthetic oral lesion diagnosis dataset and the publicly available GretelAI symptom-to-diagnosis dataset. Compared to standard baselines, our approach improves accuracy by up to 46.9\%, reduces Brier scores by 74.4\%, and enhances calibration as measured by Expected Calibration Error (ECE) and predictive entropy.