Decoding Uncertainty: The Impact of Decoding Strategies for Uncertainty Estimation in Large Language Models

📄 arXiv: 2509.16696v1 📥 PDF

作者: Wataru Hashimoto, Hidetaka Kamigaito, Taro Watanabe

分类: cs.CL, cs.LG

发布日期: 2025-09-20

备注: Accepted at EMNLP 2025 Findings


💡 一句话要点

对比搜索提升大语言模型不确定性估计的有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 不确定性估计 解码策略 对比搜索 偏好对齐 监督微调 风险评估

📋 核心要点

  1. 现有方法在评估大语言模型不确定性时,忽略了解码策略对模型输出概率分布的影响。
  2. 该研究考察不同解码策略对LLM不确定性估计的影响,着重分析对比搜索的优势。
  3. 实验结果表明,对比搜索在偏好对齐的LLM中能产生更可靠的不确定性估计。

📝 摘要(中文)

解码策略会影响语言模型输出的概率分布,进而影响生成质量及其不确定性。本研究探讨了解码策略对大语言模型(LLM)不确定性估计的影响。实验表明,对比搜索(Contrastive Search)能够减轻重复生成的问题,并在各种偏好对齐的LLM中产生更好的平均不确定性估计。相比之下,当模型仅经过监督微调(SFT)后训练,即没有明确的对齐时,这些策略的优势有时会发生分歧。

🔬 方法详解

问题定义:论文旨在研究不同的解码策略如何影响大语言模型(LLM)的不确定性估计。现有方法通常忽略解码策略对模型输出概率分布的影响,导致不准确的不确定性评估。这种不准确性会影响下游任务,如风险评估和安全部署。

核心思路:论文的核心思路是系统性地评估各种解码策略(如贪婪解码、束搜索、对比搜索等)对LLM不确定性估计的影响。通过比较不同解码策略下模型输出的不确定性与实际表现之间的相关性,来确定哪种策略能够产生更可靠的不确定性估计。特别关注对比搜索,因为它旨在减少重复生成,这可能与更准确的不确定性估计相关。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一系列预训练的LLM,包括经过偏好对齐的模型和仅经过监督微调的模型。2) 使用不同的解码策略生成文本。3) 使用各种方法计算生成文本的不确定性,例如基于概率的方法。4) 评估不同解码策略下不确定性估计的质量,通过比较不确定性与模型实际表现之间的相关性。

关键创新:该研究的关键创新在于它首次系统性地研究了解码策略对LLM不确定性估计的影响。以往的研究主要集中在模型架构或训练方法上,而忽略了解码过程中的选择。该研究表明,对比搜索是一种有效的解码策略,可以提高LLM不确定性估计的准确性。

关键设计:研究中关键的设计包括:1) 选择具有代表性的LLM,包括不同大小和训练方式的模型。2) 使用多种解码策略,包括贪婪解码、束搜索、对比搜索等,以覆盖不同的生成方式。3) 使用多种不确定性度量方法,以确保结果的鲁棒性。4) 采用相关性分析等统计方法,评估不确定性估计的质量。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,对比搜索在偏好对齐的LLM中,平均而言能够产生更好的不确定性估计。具体来说,对比搜索能够降低模型生成重复内容的概率,从而提高不确定性估计的可靠性。然而,对于仅经过监督微调的模型,不同解码策略的优势并不一致,表明对齐训练对解码策略的选择有重要影响。

🎯 应用场景

该研究成果可应用于提升大语言模型在风险评估、安全部署和可信赖人工智能等领域的应用。更准确的不确定性估计有助于识别模型可能出错的情况,从而采取相应的措施来降低风险。例如,在医疗诊断或金融决策等高风险领域,可靠的不确定性估计至关重要。

📄 摘要(原文)

Decoding strategies manipulate the probability distribution underlying the output of a language model and can therefore affect both generation quality and its uncertainty. In this study, we investigate the impact of decoding strategies on uncertainty estimation in Large Language Models (LLMs). Our experiments show that Contrastive Search, which mitigates repetition, yields better uncertainty estimates on average across a range of preference-aligned LLMs. In contrast, the benefits of these strategies sometimes diverge when the model is only post-trained with supervised fine-tuning, i.e. without explicit alignment.