Retrieval and Argumentation Enhanced Multi-Agent LLMs for Judgmental Forecasting

📄 arXiv: 2510.24303v2 📥 PDF

作者: Deniz Gorur, Antonio Rago, Francesca Toni

分类: cs.AI

发布日期: 2025-10-28 (更新: 2025-11-04)


💡 一句话要点

提出基于检索与论证增强的多Agent LLM框架,用于提升判断性预测的准确性和可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 判断性预测 多Agent系统 大型语言模型 论证挖掘 检索增强 定量双极论证框架 声明验证

📋 核心要点

  1. 现有判断性预测方法缺乏有效整合外部知识和处理Agent间分歧的机制,影响预测准确性和可解释性。
  2. 提出多Agent框架,利用LLM生成和评估定量双极论证框架,结合检索增强和论证挖掘,提升预测性能。
  3. 实验表明,结合多个Agent的证据能显著提高预测准确性,并提供可解释的证据组合,尤其在三Agent场景下。

📝 摘要(中文)

本文提出了一种新颖的多Agent框架,用于解决基于人类判断的未来事件预测任务,该任务可视为一种声明验证。框架中,不同Agent对声明的真实性可能存在分歧,并提供支持或反对声明的具体证据,这些证据被表示为定量双极论证框架(QBAFs)。该框架通过大型语言模型(LLM)实例化,包含三种Agent:(1)ArgLLM Agent,一种生成和评估QBAFs的现有方法;(2)RbAM Agent,利用基于关系的论证挖掘(RbAM)从外部来源生成QBAFs;(3)RAG-ArgLLM Agent,通过检索增强生成(RAG)从外部来源扩展ArgLLM Agent的论证。实验结果表明,结合多个Agent的证据可以提高预测准确性,尤其是在三个Agent的情况下,同时为声明验证提供可解释的证据组合。

🔬 方法详解

问题定义:论文旨在解决判断性预测任务,即基于人类判断对未来事件进行预测。现有方法在整合外部知识和处理不同Agent之间的意见分歧方面存在不足,导致预测准确性和可解释性受限。

核心思路:核心思路是构建一个多Agent系统,每个Agent负责从不同角度评估预测事件的合理性,并生成支持或反对该事件的论证。通过将这些论证表示为定量双极论证框架(QBAFs),可以对不同Agent的观点进行整合和推理,从而提高预测的准确性和可解释性。

技术框架:整体框架包含多个Agent,每个Agent负责生成和评估QBAFs。具体流程如下:1) 每个Agent接收预测事件的描述作为输入;2) Agent利用LLM生成支持和反对该事件的论证;3) 这些论证被表示为QBAFs;4) 框架对不同Agent生成的QBAFs进行整合和推理,得到最终的预测结果。框架包含三种Agent:ArgLLM、RbAM和RAG-ArgLLM。

关键创新:关键创新在于将论证挖掘和检索增强技术融入到多Agent LLM框架中,用于判断性预测。RbAM Agent利用基于关系的论证挖掘从外部来源生成论证,RAG-ArgLLM Agent通过检索增强生成论证,从而扩展了Agent的知识来源,提高了论证的质量。此外,框架还提供了一种可解释的方式来整合不同Agent的观点。

关键设计:论文使用了三种不同的Agent类型,每种Agent都使用了不同的LLM作为基础模型。QBAFs用于表示Agent生成的论证,其中每个论证都有一个量化的强度值。框架使用特定的算法来整合不同Agent的QBAFs,并得到最终的预测结果。具体的参数设置和损失函数等技术细节在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,结合多个Agent的证据可以显著提高预测准确性,尤其是在三个Agent的情况下。具体性能数据和对比基线在摘要中未明确给出,属于未知信息。但论文强调,该框架为声明验证提供了一种可解释的证据组合。

🎯 应用场景

该研究成果可应用于金融预测、政治风险评估、市场趋势分析等领域,帮助决策者更好地理解未来事件的可能性,并做出更明智的决策。通过提供可解释的证据组合,该框架还可以提高决策的透明度和可信度,增强用户对预测结果的信任。

📄 摘要(原文)

Judgmental forecasting is the task of making predictions about future events based on human judgment. This task can be seen as a form of claim verification, where the claim corresponds to a future event and the task is to assess the plausibility of that event. In this paper, we propose a novel multi-agent framework for claim verification, whereby different agents may disagree on claim veracity and bring specific evidence for and against the claims, represented as quantitative bipolar argumentation frameworks (QBAFs). We then instantiate the framework for supporting claim verification, with a variety of agents realised with Large Language Models (LLMs): (1) ArgLLM agents, an existing approach for claim verification that generates and evaluates QBAFs; (2) RbAM agents, whereby LLM-empowered Relation-based Argument Mining (RbAM) from external sources is used to generate QBAFs; (3) RAG-ArgLLM agents, extending ArgLLM agents with a form of Retrieval-Augmented Generation (RAG) of arguments from external sources. Finally, we conduct experiments with two standard judgmental forecasting datasets, with instances of our framework with two or three agents, empowered by six different base LLMs. We observe that combining evidence from agents can improve forecasting accuracy, especially in the case of three agents, while providing an explainable combination of evidence for claim verification.