SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?

📄 arXiv: 2505.20295v3 📥 PDF

作者: Michael Kirchhof, Luca Füger, Adam Goliński, Eeshan Gunesh Dhekane, Arno Blaas, Seong Joon Oh, Sinead Williamson

分类: cs.CL, cs.AI, cs.LG, stat.ML

发布日期: 2025-05-26 (更新: 2025-09-30)


💡 一句话要点

提出SelfReflect指标,评估LLM能否有效传达其内部答案分布的不确定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不确定性量化 信息论距离 SelfReflect指标 置信度评估

📋 核心要点

  1. 现有LLM传达不确定性的方式简单粗暴,无法充分反映其内部置信度分布。
  2. 论文提出SelfReflect指标,通过信息论距离评估LLM总结与其内部答案分布的忠实度。
  3. 实验表明,现有LLM难以准确传达不确定性,但通过采样和反馈可显著改善。

📝 摘要(中文)

目前,大型语言模型(LLM)传达不确定性的常用方法是在回答中添加百分比数字或模糊词。本文旨在探索LLM是否能反映其内部置信度分布,并输出所有可能选项及其概率的总结,从而实现完全透明。为此,作者提出了SelfReflect指标,这是一种信息论距离,用于衡量总结与答案分布之间的差异。通过干预研究和人工研究,发现SelfReflect能够检测到细微偏差,从而精确衡量总结字符串与LLM实际内部答案分布之间的忠实度。研究结果表明,现代LLM普遍缺乏揭示其不确定性的能力,无论通过推理、思维链还是显式微调。然而,通过对多个输出进行抽样并将其反馈到上下文中,可以帮助LLM生成对其不确定性的忠实总结。这种简单方法为传达LLM不确定性提供了一种通用途径,SelfReflect指标能够促进其未来发展。

🔬 方法详解

问题定义:论文旨在解决LLM无法有效传达其内部答案分布的问题。现有方法,如添加百分比或模糊词,无法充分反映LLM的真实不确定性,缺乏细粒度和可信度。这限制了用户对LLM输出的信任和理解。

核心思路:核心思路是设计一种能够量化LLM输出的总结与其内部答案分布之间差异的指标,即SelfReflect。通过比较LLM的总结和其内部置信度分布,可以评估LLM是否能够忠实地表达其不确定性。如果LLM能够准确地反映其不确定性,则SelfReflect值应该较低。

技术框架:该研究主要包含以下几个阶段:1)定义SelfReflect指标,该指标基于信息论距离,用于衡量LLM输出的总结与内部答案分布之间的差异。2)设计干预研究和人工研究,以评估LLM在不同条件下的SelfReflect值。3)探索通过采样和反馈等方法,提高LLM传达不确定性的能力。4)分析实验结果,评估SelfReflect指标的有效性,并探讨LLM传达不确定性的局限性和改进方向。

关键创新:关键创新在于提出了SelfReflect指标,这是一种新颖的、信息论的度量方法,用于评估LLM传达不确定性的能力。与现有方法相比,SelfReflect能够更细粒度地衡量LLM输出的总结与其内部置信度分布之间的差异,从而更准确地评估LLM的忠实度。

关键设计:SelfReflect指标的具体计算方式未知,但其核心思想是基于信息论距离,例如KL散度或JS散度,来衡量两个概率分布之间的差异。干预研究和人工研究的设计细节未知,但可能包括改变输入提示、调整模型参数等操作,以观察LLM在不同条件下的SelfReflect值。采样和反馈方法的具体实现方式未知,但可能包括对LLM进行多次采样,并将采样结果作为上下文反馈给LLM,以提高其传达不确定性的能力。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,现有LLM普遍缺乏揭示其不确定性的能力。然而,通过对多个输出进行抽样并将其反馈到上下文中,可以显著提高LLM传达不确定性的能力。SelfReflect指标能够有效检测到细微偏差,为评估LLM传达不确定性的能力提供了一种有效工具。

🎯 应用场景

该研究成果可应用于提升LLM在医疗诊断、金融分析等高风险领域的可靠性和可信度。通过提高LLM传达不确定性的能力,用户可以更好地理解LLM的决策过程,从而做出更明智的判断。未来,SelfReflect指标可用于指导LLM的训练和优化,使其能够更准确地表达其不确定性。

📄 摘要(原文)

The common approach to communicate a large language model's (LLM) uncertainty is to add a percentage number or a hedging word to its response. But is this all we can do? Instead of generating a single answer and then hedging it, an LLM that is fully transparent to the user needs to be able to reflect on its internal belief distribution and output a summary of all options it deems possible, and how likely they are. To test whether LLMs possess this capability, we develop the SelfReflect metric, an information-theoretic distance between a given summary and a distribution over answers. In interventional and human studies, we find that SelfReflect indicates even slight deviations, yielding a fine measure of faithfulness between a summary string and an LLM's actual internal distribution over answers. With SelfReflect, we make a resounding negative observation: modern LLMs are, across the board, incapable of revealing what they are uncertain about, neither through reasoning, nor chains-of-thoughts, nor explicit finetuning. However, we do find that LLMs are able to generate faithful summaries of their uncertainties if we help them by sampling multiple outputs and feeding them back into the context. This simple approach shines a light at the universal way of communicating LLM uncertainties whose future development the SelfReflect score enables.