CER: Confidence Enhanced Reasoning in LLMs

作者: Ali Razghandi, Seyed Mohammad Hadi Hosseini, Mahdieh Soleymani Baghshah

分类: cs.LG

发布日期: 2025-02-20 (更新: 2025-05-25)

备注: Accepted at ACL 2025 Main Conference

💡 一句话要点

提出CER：一种置信度增强的LLM推理框架，提升数学和开放域任务的准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 置信度评估 推理准确性 数学推理 开放域生成

📋 核心要点

大型语言模型在复杂推理任务中面临可靠性挑战，尤其是在需要精确计算和知识密集型生成时。
论文提出一种置信度增强的推理框架，通过量化中间步骤的置信度，并据此聚合答案，提升整体准确性。
实验结果表明，该方法在数学和开放域任务中均能有效提升LLM的性能，准确率分别提高高达7.4%和5.8%。

📝 摘要（中文）

本文提出了一种不确定性感知的框架，旨在通过在关键决策点系统性地整合模型置信度，来提高大型语言模型（LLM）在复杂推理任务中的可靠性。该方法鼓励LLM进行多步推理，并量化中间答案的置信度，例如数学推理中的数值结果和开放域生成中的专有名词。然后，基于这些关键中间步骤的置信度来评估每个推理链的总体置信度。最后，以反映每个生成内容的可靠性的方式聚合生成响应路径的答案（而不是在自洽性中每个生成的链对多数投票的贡献相等）。在五个数据集（三个数学数据集和两个开放域数据集）上，使用四个LLM进行了广泛的实验。结果一致地验证了我们提出的置信度聚合方法的有效性，在数学和开放域生成任务中，相对于基线方法，准确率分别提高了高达7.4%和5.8%。代码已公开。

🔬 方法详解

问题定义：现有的大型语言模型在进行复杂推理时，尤其是在数学计算和开放域知识生成方面，容易出现错误。传统的自洽性方法平等对待每个生成的推理链，忽略了不同推理链的可靠性差异，导致最终结果可能受到低质量推理链的影响。

核心思路：论文的核心思路是引入置信度评估机制，对LLM推理过程中的关键中间步骤进行置信度量化，并根据置信度对不同的推理链进行加权聚合。通过这种方式，可以提高最终答案的准确性和可靠性。

技术框架：该框架主要包含以下几个阶段：1) 多步推理生成：鼓励LLM生成多个不同的推理路径。2) 中间步骤置信度量化：对每个推理路径中的关键中间步骤（如数值结果、专有名词）进行置信度评估。3) 推理链置信度评估：基于中间步骤的置信度，计算每个推理链的总体置信度。4) 答案聚合：根据推理链的置信度，对不同推理链的答案进行加权聚合，得到最终答案。

关键创新：该方法最重要的创新点在于引入了置信度评估机制，并将其应用于LLM的推理过程中。与传统的自洽性方法相比，该方法能够更准确地评估不同推理链的可靠性，并据此进行答案聚合，从而提高最终答案的准确性。

关键设计：论文中没有详细说明具体的置信度量化方法，这部分可能是依赖于特定LLM的能力或者采用了一些现有的置信度估计技术。答案聚合的具体方式也未详细描述，但可以推测是根据推理链的置信度进行加权平均或加权投票。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在数学和开放域生成任务中均取得了显著的性能提升。在数学数据集上，准确率提升高达7.4%；在开放域数据集上，准确率提升高达5.8%。这些结果表明，该方法能够有效提高LLM的推理准确性和可靠性，优于现有的基线方法。

🎯 应用场景

该研究成果可应用于需要高可靠性的LLM应用场景，例如金融分析、医疗诊断、法律咨询等。通过提高LLM的推理准确性，可以减少错误决策的风险，提高工作效率，并为用户提供更可靠的信息服务。未来，该方法可以进一步扩展到其他类型的推理任务和LLM模型。

📄 摘要（原文）

Ensuring the reliability of Large Language Models (LLMs) in complex reasoning tasks remains a formidable challenge, particularly in scenarios that demand precise mathematical calculations and knowledge-intensive open-domain generation. In this work, we introduce an uncertainty-aware framework designed to enhance the accuracy of LLM responses by systematically incorporating model confidence at critical decision points. We propose an approach that encourages multi-step reasoning in LLMs and quantify the confidence of intermediate answers such as numerical results in mathematical reasoning and proper nouns in open-domain generation. Then, the overall confidence of each reasoning chain is evaluated based on confidence of these critical intermediate steps. Finally, we aggregate the answer of generated response paths in a way that reflects the reliability of each generated content (as opposed to self-consistency in which each generated chain contributes equally to majority voting). We conducted extensive experiments in five datasets, three mathematical datasets and two open-domain datasets, using four LLMs. The results consistently validate the effectiveness of our novel confidence aggregation method, leading to an accuracy improvement of up to 7.4% and 5.8% over baseline approaches in math and open-domain generation tasks, respectively. Code is publicly available at https://github.com/ Aquasar11/CER.

CER: Confidence Enhanced Reasoning in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理