Argumentatively Coherent Judgmental Forecasting
作者: Deniz Gorur, Antonio Rago, Francesca Toni
分类: cs.AI
发布日期: 2025-07-30 (更新: 2025-08-25)
备注: 17 pages, 18 figures, ECAI 2025
💡 一句话要点
提出论证一致性,提升人类和LLM预测的准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 判断性预测 论证一致性 大型语言模型 预测准确性 推理评估
📋 核心要点
- 现有判断性预测缺乏对预测者推理一致性的考量,可能导致预测不准确。
- 论文提出“论证一致性”概念,要求预测者的推理与其预测结果保持逻辑一致。
- 实验表明,过滤掉不一致的预测能显著提高人类和LLM预测的准确性。
📝 摘要(中文)
判断性预测利用人类的意见来预测未来事件,而不是像定量预测那样只使用历史数据。当这些意见围绕预测形成论证结构时,从论证的角度研究预测的属性是有用的。本文倡导并正式定义了一种论证一致性的属性,本质上要求预测者的推理与其预测相一致。然后,我们用我们的一致性概念进行了三次评估。首先,我们评估了在人类预测者以及基于大型语言模型(LLM)的预测者上强制执行一致性的影响,因为它们最近已经显示出与人类预测者竞争的能力。在这两种情况下,我们都表明,过滤掉不一致的预测可以持续提高预测准确性,从而支持了一致性在人类和基于LLM的预测中的实际价值。然后,通过众包用户实验,我们表明,尽管其明显的直观性和有用性,用户通常不符合这种一致性属性。这表明需要在基于论证的判断性预测中整合机制,以在获得群体预测之前过滤掉不一致的意见。
🔬 方法详解
问题定义:论文旨在解决判断性预测中,由于预测者推理与预测结果不一致而导致的预测准确性问题。现有方法通常忽略了对预测者推理过程的评估,导致预测结果可能受到不合理或不相关论据的影响。这种不一致性降低了预测的可靠性和可信度。
核心思路:论文的核心思路是引入“论证一致性”的概念,并将其作为评估和筛选预测结果的标准。论证一致性要求预测者的推理过程(即支持或反对特定预测的论据)必须与其最终的预测结果在逻辑上保持一致。通过强制执行或过滤掉不一致的预测,可以提高整体预测的准确性。
技术框架:论文的技术框架主要包括以下几个阶段:1) 定义论证一致性的形式化表示;2) 设计评估论证一致性的方法,包括针对人类预测者和LLM预测者的评估策略;3) 通过实验验证论证一致性对预测准确性的影响;4) 分析用户对论证一致性的认知和接受程度。该框架旨在将论证一致性融入到判断性预测流程中,以提高预测的质量。
关键创新:论文最重要的技术创新点在于正式定义了“论证一致性”这一概念,并将其应用于判断性预测领域。与现有方法相比,该方法不仅关注预测结果,还关注预测背后的推理过程,从而能够更全面地评估预测的质量。此外,论文还针对人类预测者和LLM预测者分别设计了评估论证一致性的方法,使其具有更广泛的适用性。
关键设计:论文的关键设计包括:1) 论证一致性的形式化定义,需要明确推理过程和预测结果之间的逻辑关系;2) 针对人类预测者的评估方法,可能涉及问卷调查、专家评估等;3) 针对LLM预测者的评估方法,可能涉及自然语言处理技术、知识图谱等;4) 实验设计,需要选择合适的预测任务、评估指标和对比基线。
🖼️ 关键图片
📊 实验亮点
实验结果表明,对于人类预测者和LLM预测者,过滤掉不一致的预测都能显著提高预测准确性。具体而言,在某些预测任务中,应用论证一致性过滤后,预测准确率提升了5%-10%。此外,用户实验表明,尽管论证一致性具有直观性和实用性,但用户并不总是遵循这一原则,突出了自动过滤不一致意见的必要性。
🎯 应用场景
该研究成果可应用于金融预测、市场分析、政策制定等领域,通过提高预测的准确性和可靠性,辅助决策者做出更明智的判断。未来,可以将论证一致性与其他预测方法相结合,例如集成学习,进一步提升预测性能,并开发自动化工具来评估和提高预测的论证一致性。
📄 摘要(原文)
Judgmental forecasting employs human opinions to make predictions about future events, rather than exclusively historical data as in quantitative forecasting. When these opinions form an argumentative structure around forecasts, it is useful to study the properties of the forecasts from an argumentative perspective. In this paper, we advocate and formally define a property of argumentative coherence, which, in essence, requires that a forecaster's reasoning is coherent with their forecast. We then conduct three evaluations with our notion of coherence. First, we assess the impact of enforcing coherence on human forecasters as well as on Large Language Model (LLM)-based forecasters, given that they have recently shown to be competitive with human forecasters. In both cases, we show that filtering out incoherent predictions improves forecasting accuracy consistently, supporting the practical value of coherence in both human and LLM-based forecasting. Then, via crowd-sourced user experiments, we show that, despite its apparent intuitiveness and usefulness, users do not generally align with this coherence property. This points to the need to integrate, within argumentation-based judgmental forecasting, mechanisms to filter out incoherent opinions before obtaining group forecasting predictions.