Identifying Influential N-grams in Confidence Calibration via Regression Analysis
作者: Shintaro Ozaki, Wataru Hashimoto, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
通过回归分析识别影响置信度校准的N-gram,提升大语言模型推理可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 置信度校准 回归分析 N-gram 语言表达 推理 QA
📋 核心要点
- 大语言模型推理能力增强,但过度自信问题突出,影响实际应用。
- 通过回归分析,识别影响置信度的关键N-gram语言表达。
- 抑制过度自信表达,实现置信度校准,且不降低模型性能。
📝 摘要(中文)
大型语言模型(LLMs)虽然通过显式推理提高了性能,但其响应通常过于自信,即使包含表达不确定性的语言成分。本文通过回归方法识别与置信度相关的语言表达。具体而言,我们预测LLMs推理部分中这些语言表达的置信度作为因变量,并分析特定n-gram与置信度之间的关系。在多个模型和QA基准测试中,我们表明LLMs在涉及推理时仍然过于自信,并将此行为归因于特定的语言信息。有趣的是,一些提取的表达与在测试时用于提高推理性能的提示词相吻合。通过对因果关系的测试和验证,我们发现提取的语言信息确实会影响置信度,我们揭示了通过简单地抑制这些过度自信的表达,而不会降低性能,从而实现置信度校准。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在推理过程中过度自信的问题。现有方法往往忽略了语言表达与置信度之间的关联,导致模型在包含不确定性表达时仍然给出高置信度的错误答案。这种过度自信会降低模型在实际应用中的可靠性。
核心思路:论文的核心思路是通过回归分析,量化语言表达(n-gram)与模型置信度之间的关系。通过识别与高置信度相关的特定n-gram,并有针对性地抑制这些表达,从而实现置信度校准。这种方法旨在在不牺牲模型性能的前提下,提高模型输出的可靠性。
技术框架:论文的技术框架主要包含以下几个阶段:1) 数据收集:收集LLM在QA任务中生成的推理过程文本和对应的置信度得分。2) 特征提取:从推理文本中提取n-gram作为特征。3) 回归分析:使用回归模型(例如线性回归)预测n-gram与置信度之间的关系,确定对置信度影响较大的n-gram。4) 置信度校准:通过抑制或调整与高置信度相关的n-gram,来校准模型的置信度输出。5) 评估:评估校准后的模型在QA任务上的性能和置信度准确性。
关键创新:论文的关键创新在于将回归分析应用于LLM的置信度校准,并识别出影响置信度的关键语言表达。与传统的置信度校准方法不同,该方法关注语言层面的信息,能够更精细地控制模型的置信度输出。此外,论文还验证了抑制过度自信表达可以在不降低模型性能的情况下提高置信度准确性。
关键设计:论文的关键设计包括:1) n-gram的选择:选择合适的n-gram长度,以捕捉不同粒度的语言信息。2) 回归模型的选择:选择合适的回归模型,以准确预测n-gram与置信度之间的关系。3) 置信度校准策略:设计有效的置信度校准策略,例如通过调整n-gram的权重或概率,来抑制过度自信的表达。4) 实验评估指标:使用合适的评估指标,例如准确率、校准误差等,来评估校准效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过回归分析识别出的关键N-gram确实与LLM的过度自信有关。抑制这些N-gram可以在不显著降低模型性能的情况下,有效提高置信度校准效果。例如,在某些QA基准测试中,模型的校准误差降低了X%,同时准确率保持在Y%以上(具体数据请参考原文)。
🎯 应用场景
该研究成果可应用于各种需要高可靠性的大语言模型应用场景,例如医疗诊断、金融风险评估、法律咨询等。通过提高模型的置信度准确性,可以减少错误决策的风险,增强用户对模型的信任度。未来,该方法可以进一步扩展到其他自然语言处理任务,例如文本摘要、机器翻译等。
📄 摘要(原文)
While large language models (LLMs) improve performance by explicit reasoning, their responses are often overconfident, even though they include linguistic expressions demonstrating uncertainty. In this work, we identify what linguistic expressions are related to confidence by applying the regression method. Specifically, we predict confidence of those linguistic expressions in the reasoning parts of LLMs as the dependent variables and analyze the relationship between a specific $n$-gram and confidence. Across multiple models and QA benchmarks, we show that LLMs remain overconfident when reasoning is involved and attribute this behavior to specific linguistic information. Interestingly, several of the extracted expressions coincide with cue phrases intentionally inserted on test-time scaling to improve reasoning performance. Through our test on causality and verification that the extracted linguistic information truly affects confidence, we reveal that confidence calibration is possible by simply suppressing those overconfident expressions without drops in performance.