Group Deliberation Oriented Multi-Agent Conversational Model for Complex Reasoning

📄 arXiv: 2512.24613v1 📥 PDF

作者: Zheyu Shi, Dong Qiu, Shanlong Yu

分类: cs.AI

发布日期: 2025-12-31

备注: Accepted by IEEE ITCA 2025


💡 一句话要点

提出面向群体审议的多智能体对话模型,解决复杂推理任务难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 复杂推理 对话模型 知识检索 群体审议

📋 核心要点

  1. 现有大型语言模型在复杂推理任务中存在局限性,难以有效整合多方面信息并保证推理过程的正确性。
  2. 该模型模拟群体审议过程,通过多个智能体分工合作,生成、验证和整合信息,从而提升推理能力。
  3. 实验表明,该模型在多跳推理准确率和一致性方面均有显著提升,且推理效率高于主流多智能体方法。

📝 摘要(中文)

本文提出了一种面向群体审议的多智能体对话模型,旨在解决单个大型语言模型在复杂推理任务中的局限性。该模型采用三层角色分工架构,包括生成、验证和整合。意见生成智能体产生多样化的推理视角,证据验证智能体检索外部知识并量化事实支持,一致性仲裁智能体整合逻辑上连贯的结论。引入自博弈机制以扩展多路径推理轨迹,同时检索增强模块动态补充外部知识。设计了结合事实一致性和逻辑连贯性的复合奖励函数,并应用改进的近端策略优化策略进行协同训练。实验结果表明,所提出的模型在HotpotQA上提高了16.8%的多跳推理准确率,在2WikiMultihopQA上提高了14.3%,在MeetingBank上提高了19.2%,同时一致性提高了21.5%。该模型比主流的多智能体方法具有更高的推理效率,为复杂推理任务提供了一种有效且稳定的解决方案。

🔬 方法详解

问题定义:现有方法,特别是依赖单一大型语言模型的方法,在处理需要多步推理和外部知识的任务时,容易出现逻辑错误和事实性错误。这些模型难以有效地整合来自不同来源的信息,并缺乏对自身推理过程的有效验证机制,导致推理结果的可靠性降低。

核心思路:本文的核心思路是模拟人类群体审议的过程,通过多个智能体扮演不同的角色(生成、验证、整合),协同完成复杂推理任务。这种分工合作的方式可以有效提高推理的全面性和准确性,并增强模型的可解释性。

技术框架:该模型采用三层角色分工架构:1) 意见生成智能体:负责生成多样化的推理视角和假设;2) 证据验证智能体:负责检索外部知识,并评估各个推理步骤的事实支持度;3) 一致性仲裁智能体:负责整合各个智能体的输出,并选择逻辑上最连贯的结论。此外,模型还引入了自博弈机制来探索更多的推理路径,并使用检索增强模块动态补充外部知识。

关键创新:该模型最重要的技术创新点在于其面向群体审议的多智能体架构,以及针对复杂推理任务设计的复合奖励函数。与传统的单智能体或简单多智能体方法相比,该模型能够更好地模拟人类的推理过程,并有效地利用外部知识。自博弈机制和检索增强模块进一步提升了模型的探索能力和知识利用率。

关键设计:模型使用改进的近端策略优化(PPO)算法进行协同训练,并设计了一个复合奖励函数,该函数结合了事实一致性(factual consistency)和逻辑连贯性(logical coherence)两个方面。事实一致性通过外部知识库的检索结果来评估,逻辑连贯性则通过推理链的合理性来评估。自博弈机制通过让智能体之间相互对抗,从而扩展推理路径。检索增强模块使用动态检索策略,根据当前推理状态选择合适的外部知识。

📊 实验亮点

实验结果表明,该模型在HotpotQA、2WikiMultihopQA和MeetingBank三个数据集上均取得了显著的性能提升。具体而言,在HotpotQA上,多跳推理准确率提高了16.8%;在2WikiMultihopQA上,提高了14.3%;在MeetingBank上,提高了19.2%。同时,模型的一致性也提高了21.5%。此外,该模型在推理效率方面也优于主流的多智能体方法。

🎯 应用场景

该研究成果可应用于问答系统、智能客服、决策支持系统等领域,尤其是在需要复杂推理和知识整合的场景下。例如,在医疗诊断领域,该模型可以辅助医生进行病情分析和诊断;在金融风控领域,该模型可以用于识别潜在的欺诈行为。未来,该模型有望进一步提升人工智能在复杂问题解决方面的能力。

📄 摘要(原文)

This paper proposes a group deliberation oriented multi-agent conversational model to address the limitations of single large language models in complex reasoning tasks. The model adopts a three-level role division architecture consisting of generation, verification, and integration. An opinion generation agent produces diverse reasoning perspectives, an evidence verification agent retrieves external knowledge and quantifies factual support, and a consistency arbitration agent integrates logically coherent conclusions. A self-game mechanism is introduced to expand multi-path reasoning trajectories, while a retrieval enhancement module dynamically supplements external knowledge. A composite reward function combining factual consistency and logical coherence is designed, and an improved proximal policy optimization strategy is applied for collaborative training. Experimental results show that the proposed model improves multi-hop reasoning accuracy by 16.8 percent on HotpotQA, 14.3 percent on 2WikiMultihopQA, and 19.2 percent on MeetingBank, while improving consistency by 21.5 percent. The model achieves higher reasoning efficiency than mainstream multi-agent approaches, providing an effective and stable solution for complex reasoning tasks.