CER: Confidence Enhanced Reasoning in LLMs
作者: Ali Razghandi, Seyed Mohammad Hadi Hosseini, Mahdieh Soleymani Baghshah
分类: cs.LG
发布日期: 2025-02-20 (更新: 2025-05-25)
备注: Accepted at ACL 2025 Main Conference
💡 一句话要点
提出CER:一种置信度增强的LLM推理框架,提升数学和开放域任务的准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 置信度评估 推理准确性 数学推理 开放域生成
📋 核心要点
- 大型语言模型在复杂推理任务中面临可靠性挑战,尤其是在需要精确计算和知识密集型生成时。
- 论文提出一种置信度增强的推理框架,通过量化中间步骤的置信度,并据此聚合答案,提升整体准确性。
- 实验结果表明,该方法在数学和开放域任务中均能有效提升LLM的性能,准确率分别提高高达7.4%和5.8%。
📝 摘要(中文)
本文提出了一种不确定性感知的框架,旨在通过在关键决策点系统性地整合模型置信度,来提高大型语言模型(LLM)在复杂推理任务中的可靠性。该方法鼓励LLM进行多步推理,并量化中间答案的置信度,例如数学推理中的数值结果和开放域生成中的专有名词。然后,基于这些关键中间步骤的置信度来评估每个推理链的总体置信度。最后,以反映每个生成内容的可靠性的方式聚合生成响应路径的答案(而不是在自洽性中每个生成的链对多数投票的贡献相等)。在五个数据集(三个数学数据集和两个开放域数据集)上,使用四个LLM进行了广泛的实验。结果一致地验证了我们提出的置信度聚合方法的有效性,在数学和开放域生成任务中,相对于基线方法,准确率分别提高了高达7.4%和5.8%。代码已公开。
🔬 方法详解
问题定义:现有的大型语言模型在进行复杂推理时,尤其是在数学计算和开放域知识生成方面,容易出现错误。传统的自洽性方法平等对待每个生成的推理链,忽略了不同推理链的可靠性差异,导致最终结果可能受到低质量推理链的影响。
核心思路:论文的核心思路是引入置信度评估机制,对LLM推理过程中的关键中间步骤进行置信度量化,并根据置信度对不同的推理链进行加权聚合。通过这种方式,可以提高最终答案的准确性和可靠性。
技术框架:该框架主要包含以下几个阶段:1) 多步推理生成:鼓励LLM生成多个不同的推理路径。2) 中间步骤置信度量化:对每个推理路径中的关键中间步骤(如数值结果、专有名词)进行置信度评估。3) 推理链置信度评估:基于中间步骤的置信度,计算每个推理链的总体置信度。4) 答案聚合:根据推理链的置信度,对不同推理链的答案进行加权聚合,得到最终答案。
关键创新:该方法最重要的创新点在于引入了置信度评估机制,并将其应用于LLM的推理过程中。与传统的自洽性方法相比,该方法能够更准确地评估不同推理链的可靠性,并据此进行答案聚合,从而提高最终答案的准确性。
关键设计:论文中没有详细说明具体的置信度量化方法,这部分可能是依赖于特定LLM的能力或者采用了一些现有的置信度估计技术。答案聚合的具体方式也未详细描述,但可以推测是根据推理链的置信度进行加权平均或加权投票。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在数学和开放域生成任务中均取得了显著的性能提升。在数学数据集上,准确率提升高达7.4%;在开放域数据集上,准确率提升高达5.8%。这些结果表明,该方法能够有效提高LLM的推理准确性和可靠性,优于现有的基线方法。
🎯 应用场景
该研究成果可应用于需要高可靠性的LLM应用场景,例如金融分析、医疗诊断、法律咨询等。通过提高LLM的推理准确性,可以减少错误决策的风险,提高工作效率,并为用户提供更可靠的信息服务。未来,该方法可以进一步扩展到其他类型的推理任务和LLM模型。
📄 摘要(原文)
Ensuring the reliability of Large Language Models (LLMs) in complex reasoning tasks remains a formidable challenge, particularly in scenarios that demand precise mathematical calculations and knowledge-intensive open-domain generation. In this work, we introduce an uncertainty-aware framework designed to enhance the accuracy of LLM responses by systematically incorporating model confidence at critical decision points. We propose an approach that encourages multi-step reasoning in LLMs and quantify the confidence of intermediate answers such as numerical results in mathematical reasoning and proper nouns in open-domain generation. Then, the overall confidence of each reasoning chain is evaluated based on confidence of these critical intermediate steps. Finally, we aggregate the answer of generated response paths in a way that reflects the reliability of each generated content (as opposed to self-consistency in which each generated chain contributes equally to majority voting). We conducted extensive experiments in five datasets, three mathematical datasets and two open-domain datasets, using four LLMs. The results consistently validate the effectiveness of our novel confidence aggregation method, leading to an accuracy improvement of up to 7.4% and 5.8% over baseline approaches in math and open-domain generation tasks, respectively. Code is publicly available at https://github.com/ Aquasar11/CER.