Roundtable Policy: Improving Scientific Reasoning and Narratives through Confidence-Weighted Consensus of LLMs

📄 arXiv: 2509.16839v1 📥 PDF

作者: Yu Yao, Jiayi Dong, Ju Li, Yang Yang, Yilun Du

分类: cs.AI

发布日期: 2025-09-20

备注: Equal contribution: Yu Yao and Jiayi Dong. Equal advising: Ju Li, Yang Yang, and Yilun Du. Affiliations: Massachusetts Institute of Technology (Yu Yao, Ju Li), University of California, Los Angeles (Jiayi Dong, Yang Yang), Harvard University (Yilun Du)


💡 一句话要点

提出Roundtable Policy,通过LLM置信度加权共识提升科学推理和叙事能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学推理 多智能体系统 共识机制 置信度加权

📋 核心要点

  1. 现有LLM推理方法在复杂科学任务中存在推理能力不足和易产生幻觉的问题。
  2. Roundtable Policy通过模拟科学委员会,利用多个LLM的置信度加权共识进行推理。
  3. 实验表明,该方法显著提升了复杂科学任务的推理能力,并改善了科学叙事的质量。

📝 摘要(中文)

大型语言模型(LLMs)不仅在语言生成方面,而且在推进科学发现方面都展现出了卓越的能力。越来越多的研究探索如何提高它们的推理能力,从自洽性、思维链到多智能体辩论。受到科学委员会和“心智社会”的启发,我们引入了Roundtable Policy,这是一个互补的推理时框架,通过多个LLM的加权共识进行推理。我们的研究结果表明,这种方法显著增强了复杂异构科学任务中的推理能力,并提高了科学叙事的创造性、严谨性和逻辑连贯性,同时减少了单个模型容易产生的幻觉。我们的方法强调结构化和可解释的共识,而不是不透明的收敛,同时只需要黑盒访问和统一的程序,使其广泛适用于多LLM推理。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在复杂异构科学任务中推理能力不足,以及容易产生幻觉的问题。现有方法,如自洽性、思维链和多智能体辩论,虽然在一定程度上提高了LLM的推理能力,但仍然存在推理过程不透明、容易产生错误结论等问题。此外,现有方法往往侧重于单个模型的优化,忽略了多个模型之间的协作潜力。

核心思路:论文的核心思路是借鉴科学委员会的运作模式,通过多个LLM的协作和共识来提高推理的准确性和可靠性。每个LLM都作为一个独立的“专家”,对问题进行分析和解答,然后通过加权共识的方式整合各个专家的意见。权重由每个LLM对自身答案的置信度决定,置信度高的答案具有更高的权重。这种方法能够有效地利用多个LLM的优势,减少单个模型的偏差和错误。

技术框架:Roundtable Policy的技术框架主要包括以下几个阶段:1) 问题输入:将需要解决的科学问题输入到多个LLM中。2) 独立推理:每个LLM独立地对问题进行推理和解答,并给出答案的置信度评分。3) 加权共识:根据每个LLM的置信度评分,对各个答案进行加权平均或投票,得到最终的共识答案。4) 结果输出:输出最终的共识答案,并提供每个LLM的答案和置信度评分,以便进行结果分析和解释。

关键创新:Roundtable Policy最重要的技术创新点在于其置信度加权共识机制。与传统的简单平均或投票方法不同,该方法能够根据每个LLM的专业能力和对答案的把握程度,动态地调整其在共识过程中的权重。这种方法能够更有效地利用多个LLM的知识和经验,提高推理的准确性和可靠性。此外,该方法强调结构化和可解释的共识,而不是不透明的收敛,使得推理过程更加透明和可控。

关键设计:在Roundtable Policy中,关键的设计包括:1) LLM的选择:选择具有不同架构、训练数据和专业领域的LLM,以增加模型的多样性。2) 置信度评分方法:设计合理的置信度评分方法,例如基于模型输出的概率分布或人工标注的置信度标签。3) 加权共识算法:选择合适的加权共识算法,例如加权平均、加权投票或贝叶斯模型平均。4) 结果分析和解释:提供每个LLM的答案和置信度评分,以便进行结果分析和解释,并发现模型之间的差异和共性。

📊 实验亮点

实验结果表明,Roundtable Policy在复杂科学任务中显著提高了推理准确性,并减少了幻觉。与单个LLM相比,Roundtable Policy在多个科学数据集上取得了显著的性能提升。此外,该方法还提高了科学叙事的创造性、严谨性和逻辑连贯性。具体性能数据未知,但整体效果优于现有单模型方法。

🎯 应用场景

Roundtable Policy可应用于各种需要复杂推理和决策的科学领域,例如药物发现、材料设计、气候建模等。该方法可以帮助科学家更有效地利用LLM进行科学研究,提高研究效率和质量。此外,该方法还可以应用于教育领域,帮助学生学习科学知识和提高推理能力。未来,Roundtable Policy有望成为一种通用的多LLM推理框架,广泛应用于各个领域。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable capabilities not only in language generation but also in advancing scientific discovery. A growing body of work has explored ways to improve their reasoning, from self-consistency and chain-of-thought to multi-agent debate. Inspired by the dynamics of scientific committees and the "Society of Mind," we introduce Roundtable Policy, a complementary inference-time reasoning framework that performs inference through the weighted consensus of multiple LLMs. Our findings indicate that this approach significantly enhances reasoning in complex heterogeneous scientific tasks and improves scientific narratives in terms of creativity, rigor, and logical coherence, while reducing hallucinations that single models are prone to. Our approach emphasizes structured and interpretable consensus rather than opaque convergence, while requiring only black-box access and uniform procedures, making it broadly applicable to multi-LLM reasoning.