Council Mode: Mitigating Hallucination and Bias in LLMs via Multi-Agent Consensus
作者: Shuai Wu, Xue Li, Yanna Feng, Yufang Li, Zhijun Wang
分类: cs.CL, cs.AI
发布日期: 2026-04-06
💡 一句话要点
提出Council Mode,通过多Agent共识机制缓解LLM中的幻觉和偏见问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉缓解 偏差缓解 多Agent系统 共识机制
📋 核心要点
- 大型语言模型存在幻觉和偏差问题,尤其是在混合专家模型中,专家激活不均衡会放大这些问题。
- Council Mode通过并行查询多个异构LLM,并使用共识模型综合输出来解决幻觉和偏差问题。
- 实验结果表明,Council Mode在降低幻觉率和提高TruthfulQA得分方面优于最佳单模型,并降低了偏差方差。
📝 摘要(中文)
大型语言模型(LLM),特别是采用混合专家(MoE)架构的模型,在各种自然语言处理任务中取得了显著的成果。然而,这些模型经常遭受幻觉问题——生成看似合理但实际上不正确的内容——并且表现出系统性偏差,这些偏差在推理过程中由于专家激活的不均衡而被放大。本文提出了Council Mode,一种新颖的多Agent共识框架,通过并行地将查询分派给多个异构的前沿LLM,并通过专门的共识模型综合它们的输出来解决这些限制。Council流程分三个阶段运行:(1)一个智能分流分类器,根据复杂性路由查询;(2)跨架构多样化模型的并行专家生成;(3)一个结构化的共识综合,在生成最终响应之前明确识别一致性、分歧和独特发现。我们在一个开源AI工作区中实施和评估了该架构。我们跨多个基准的全面评估表明,与性能最佳的单个模型相比,Council Mode在HaluEval基准上实现了35.9%的幻觉率相对降低,并在TruthfulQA上实现了7.8分的改进,同时保持了跨域的显著较低的偏差方差。我们提供了共识机制的数学公式,详细介绍了系统架构,并提供了带有消融研究的广泛经验结果。
🔬 方法详解
问题定义:大型语言模型(LLM)在生成文本时容易出现幻觉(生成不真实的信息)和偏差(对某些群体或观点存在偏见)。特别是对于混合专家模型,不同专家被激活的频率不一致,导致幻觉和偏差问题更加严重。现有方法难以有效缓解这些问题,影响了LLM的可靠性和公平性。
核心思路:Council Mode的核心思想是利用多个异构LLM的集体智慧,通过并行生成和共识机制来减少幻觉和偏差。类似于一个委员会(Council)共同决策,每个LLM作为一个独立的“专家”,提供自己的观点,然后通过共识模型综合这些观点,从而得到更准确、更可靠的答案。这种方法借鉴了集成学习的思想,通过结合多个模型的优势来提高整体性能。
技术框架:Council Mode的整体架构包含三个主要阶段:(1)智能分流:根据查询的复杂程度,将查询路由到合适的LLM专家。(2)并行生成:多个异构LLM并行生成各自的答案。这些LLM可能具有不同的架构、训练数据和能力。(3)共识综合:一个专门的共识模型分析各个LLM的输出,识别一致性、分歧和独特发现,最终生成最终的响应。共识模型的设计是关键,需要能够有效地整合不同LLM的观点,并过滤掉不准确或有偏差的信息。
关键创新:Council Mode的关键创新在于其多Agent共识机制。与传统的单模型方法不同,Council Mode利用多个LLM的冗余性和多样性来提高答案的准确性和可靠性。通过显式地识别和处理不同LLM之间的分歧,Council Mode能够更好地避免幻觉和偏差。此外,智能分流机制能够根据查询的复杂程度选择合适的LLM专家,进一步提高了效率和性能。
关键设计:共识模型的具体实现细节未知,论文中提到了数学公式,但未详细展开。智能分流分类器的具体实现也未知。论文中提到进行了消融实验,但具体参数设置和损失函数等细节未明确说明。
🖼️ 关键图片
📊 实验亮点
Council Mode在HaluEval基准测试中,相对于最佳单模型,幻觉率降低了35.9%。在TruthfulQA基准测试中,得分提高了7.8分。此外,Council Mode还降低了跨领域的偏差方差,表明其具有更好的泛化能力和公平性。这些实验结果表明,Council Mode是一种有效的缓解LLM幻觉和偏差的方法。
🎯 应用场景
Council Mode可应用于各种需要高可靠性和公平性的自然语言处理任务,例如:智能客服、医疗诊断辅助、法律咨询、新闻报道等。通过降低幻觉和偏差,Council Mode可以提高LLM在这些领域的应用价值,并减少潜在的负面影响。未来,该方法可以进一步扩展到其他领域,例如:教育、金融等。
📄 摘要(原文)
Large Language Models (LLMs), particularly those employing Mixture-of-Experts (MoE) architectures, have achieved remarkable capabilities across diverse natural language processing tasks. However, these models frequently suffer from hallucinations -- generating plausible but factually incorrect content -- and exhibit systematic biases that are amplified by uneven expert activation during inference. In this paper, we propose the Council Mode, a novel multi-agent consensus framework that addresses these limitations by dispatching queries to multiple heterogeneous frontier LLMs in parallel and synthesizing their outputs through a dedicated consensus model. The Council pipeline operates in three phases: (1) an intelligent triage classifier that routes queries based on complexity, (2) parallel expert generation across architecturally diverse models, and (3) a structured consensus synthesis that explicitly identifies agreement, disagreement, and unique findings before producing the final response. We implement and evaluate this architecture within an open-source AI workspace. Our comprehensive evaluation across multiple benchmarks demonstrates that the Council Mode achieves a 35.9% relative reduction in hallucination rates on the HaluEval benchmark and a 7.8-point improvement on TruthfulQA compared to the best-performing individual model, while maintaining significantly lower bias variance across domains. We provide the mathematical formulation of the consensus mechanism, detail the system architecture, and present extensive empirical results with ablation studies.