Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems
作者: Aakriti Agrawal, Rohith Aralikatti, Anirudh Satheesh, Souradip Chakraborty, Amrit Singh Bedi, Furong Huang
分类: cs.CL, cs.LG
发布日期: 2025-09-30
💡 一句话要点
提出基于校准对数似然的多LLM答案选择方法,提升推理性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 答案选择 不确定性感知 对数似然 校准 多LLM系统 推理
📋 核心要点
- 现有方法在多LLM系统中选择最佳答案时,依赖高成本的外部验证或多次采样,效率较低。
- 该论文提出一种基于校准对数似然的方法,利用LLM自身知识和置信度,高效选择最佳答案。
- 实验表明,该方法在多个数据集和设置下,相比现有方法,性能提升显著,例如GSM8K上提升约4%。
📝 摘要(中文)
大型语言模型(LLM)展现了卓越的能力,但如何从多个LLM中选择最可靠的响应仍然是一个挑战,尤其是在资源受限的环境中。现有方法通常依赖于昂贵的外部验证器、人工评估员或需要从单个模型中进行多次采样的自洽性技术。虽然多LLM系统比单个模型产生更多样化的响应,因此具有更大的潜力,但它们通常不如单个LLM自洽性方法。我们提出了一种原则性的、新颖的且计算高效的方法,使用校准的对数似然得分从多个不同的LLM中选择最佳响应,隐式地利用这些模型固有的知识和置信度。我们的方法在GSM8K、MMLU(6个子集)和ARC数据集上的辩论(多轮LLM讨论)和非辩论(使用多个LLM的Best-of-N)设置中分别提高了约4%、3%和5%。
🔬 方法详解
问题定义:论文旨在解决如何从多个LLM生成的答案中选择最佳答案的问题。现有方法,如外部验证器或自洽性方法,存在计算成本高昂或需要多次采样的问题,限制了其在资源受限场景下的应用。此外,多LLM系统虽然具有生成多样化答案的潜力,但其性能往往不如单LLM自洽性方法。
核心思路:论文的核心思路是利用LLM自身提供的对数似然信息,并对其进行校准,以评估每个答案的质量。通过校准对数似然,可以更准确地反映LLM对自身答案的置信度,从而选择出最可靠的答案。这种方法避免了外部验证器和多次采样,提高了效率。
技术框架:该方法主要包含以下几个阶段:1) 使用多个不同的LLM生成答案;2) 计算每个LLM对每个答案的对数似然得分;3) 对对数似然得分进行校准,以消除不同LLM之间的偏差;4) 根据校准后的对数似然得分选择最佳答案。
关键创新:该方法最重要的技术创新点在于使用校准的对数似然作为选择最佳答案的指标。与现有方法相比,该方法无需外部验证器或多次采样,而是直接利用LLM自身的信息,从而实现了更高的效率和更好的性能。此外,对数似然的校准也是一个关键步骤,可以消除不同LLM之间的偏差,提高选择的准确性。
关键设计:论文中可能涉及的关键设计包括:1) 如何选择合适的LLM集合;2) 如何有效地校准对数似然得分,例如使用温度缩放等方法;3) 如何将校准后的对数似然得分用于答案选择,例如选择得分最高的答案。
📊 实验亮点
实验结果表明,该方法在GSM8K、MMLU和ARC数据集上均取得了显著的性能提升。具体而言,在辩论和非辩论设置中,该方法分别提高了约4%、3%和5%。这些结果表明,该方法能够有效地利用LLM自身的信息,选择出最可靠的答案,从而提升推理性能。
🎯 应用场景
该研究成果可应用于各种需要从多个LLM生成答案中选择最佳答案的场景,例如问答系统、对话系统、机器翻译等。通过提高答案选择的准确性和效率,可以提升这些系统的整体性能和用户体验。此外,该方法还可以应用于资源受限的环境,例如移动设备或边缘计算设备。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated exceptional capabilities, yet selecting the most reliable response from multiple LLMs remains a challenge, particularly in resource-constrained settings. Existing approaches often depend on costly external verifiers, human evaluators, or self-consistency techniques that require multiple samples from a single model. While multi-LLM systems produce more diverse responses than single models and thus have greater potential, they often underperform compared to single LLM self-consistency. We propose a principled, novel and computationally efficient method to select the best response from multiple different LLMs using a calibrated log-likelihood score, implicitly leveraging the inherent knowledge and confidence of these models. Our method demonstrates improvements of approx. 4%, 3%, and 5% across both debate (multi-round LLM discussions) and non-debate (Best-of-N with multiple LLMs) settings on GSM8K, MMLU (6 subsets), and ARC datasets respectively.