Group Deliberation Oriented Multi-Agent Conversational Model for Complex Reasoning

📄 arXiv: 2512.24613v1 📥 PDF

作者: Zheyu Shi, Dong Qiu, Shanlong Yu

分类: cs.AI

发布日期: 2025-12-31

备注: Accepted by IEEE ITCA 2025


💡 一句话要点

提出面向群体审议的多智能体对话模型,用于复杂推理任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 复杂推理 对话模型 知识检索 群体审议

📋 核心要点

  1. 现有大型语言模型在复杂推理任务中存在局限性,难以保证推理过程的事实一致性和逻辑连贯性。
  2. 该模型模拟群体审议过程,通过多个智能体分工合作,生成、验证和整合推理过程,提高推理质量。
  3. 实验结果表明,该模型在多个多跳推理数据集上显著提升了推理准确率和一致性,并具有较高的推理效率。

📝 摘要(中文)

本文提出了一种面向群体审议的多智能体对话模型,旨在解决单个大型语言模型在复杂推理任务中的局限性。该模型采用三层角色分工架构,包括生成、验证和整合。意见生成智能体产生多样化的推理视角,证据验证智能体检索外部知识并量化事实支持,一致性仲裁智能体整合逻辑连贯的结论。引入了一种自我博弈机制来扩展多路径推理轨迹,同时使用检索增强模块动态补充外部知识。设计了一种结合事实一致性和逻辑连贯性的复合奖励函数,并应用改进的近端策略优化策略进行协同训练。实验结果表明,该模型在HotpotQA上提高了16.8%的多跳推理准确率,在2WikiMultihopQA上提高了14.3%,在MeetingBank上提高了19.2%,同时一致性提高了21.5%。该模型比主流的多智能体方法具有更高的推理效率,为复杂推理任务提供了一种有效且稳定的解决方案。

🔬 方法详解

问题定义:现有的大型语言模型在进行复杂推理时,容易出现事实错误和逻辑矛盾,导致推理结果不可靠。这是因为单个模型难以同时兼顾知识的广度和推理的深度,容易受到噪声信息的影响。因此,如何提高复杂推理任务的准确性和可靠性是一个关键问题。

核心思路:本文的核心思路是模拟人类的群体审议过程,通过多个智能体分工合作,共同完成推理任务。每个智能体扮演不同的角色,分别负责生成不同的推理路径、验证证据的可靠性以及整合推理结果的逻辑一致性。通过智能体之间的协作和博弈,可以有效地提高推理的准确性和可靠性。

技术框架:该模型采用三层角色分工架构:1) 意见生成智能体:负责生成多样化的推理视角和路径;2) 证据验证智能体:负责检索外部知识,并对推理过程中的事实依据进行验证和量化;3) 一致性仲裁智能体:负责整合各个智能体的推理结果,确保逻辑连贯性。此外,模型还包括一个自我博弈机制,用于扩展多路径推理轨迹,以及一个检索增强模块,用于动态补充外部知识。

关键创新:该模型最重要的技术创新点在于其面向群体审议的多智能体架构。与传统的单智能体或简单的多智能体方法相比,该模型能够更好地模拟人类的推理过程,通过智能体之间的协作和博弈,有效地提高推理的准确性和可靠性。此外,自我博弈机制和检索增强模块也进一步提升了模型的性能。

关键设计:在奖励函数设计方面,模型采用了一种结合事实一致性和逻辑连贯性的复合奖励函数,以引导智能体生成更可靠的推理结果。在训练策略方面,模型采用了改进的近端策略优化(PPO)算法,以实现智能体之间的协同训练。具体而言,事实一致性奖励基于证据验证智能体的输出,逻辑连贯性奖励则基于一致性仲裁智能体的输出。PPO算法的改进主要体现在对奖励信号的归一化和裁剪上,以提高训练的稳定性和效率。

📊 实验亮点

实验结果表明,该模型在HotpotQA、2WikiMultihopQA和MeetingBank等多个多跳推理数据集上取得了显著的性能提升。具体而言,该模型在HotpotQA上提高了16.8%的多跳推理准确率,在2WikiMultihopQA上提高了14.3%,在MeetingBank上提高了19.2%,同时一致性提高了21.5%。此外,该模型还具有较高的推理效率,优于主流的多智能体方法。

🎯 应用场景

该研究成果可应用于问答系统、智能客服、知识图谱推理等领域。通过提高复杂推理的准确性和可靠性,可以提升这些应用的用户体验和智能化水平。未来,该模型还可以扩展到其他需要复杂推理能力的场景,例如医疗诊断、金融风险评估等。

📄 摘要(原文)

This paper proposes a group deliberation oriented multi-agent conversational model to address the limitations of single large language models in complex reasoning tasks. The model adopts a three-level role division architecture consisting of generation, verification, and integration. An opinion generation agent produces diverse reasoning perspectives, an evidence verification agent retrieves external knowledge and quantifies factual support, and a consistency arbitration agent integrates logically coherent conclusions. A self-game mechanism is introduced to expand multi-path reasoning trajectories, while a retrieval enhancement module dynamically supplements external knowledge. A composite reward function combining factual consistency and logical coherence is designed, and an improved proximal policy optimization strategy is applied for collaborative training. Experimental results show that the proposed model improves multi-hop reasoning accuracy by 16.8 percent on HotpotQA, 14.3 percent on 2WikiMultihopQA, and 19.2 percent on MeetingBank, while improving consistency by 21.5 percent. The model achieves higher reasoning efficiency than mainstream multi-agent approaches, providing an effective and stable solution for complex reasoning tasks.