Do Large Language Models Know Conflict? Investigating Parametric vs. Non-Parametric Knowledge of LLMs for Conflict Forecasting

📄 arXiv: 2505.09852v1 📥 PDF

作者: Apollinaire Poli Nemkova, Sarath Chandra Lingareddy, Sagnik Ray Choudhury, Mark V. Albert

分类: cs.CL, cs.AI

发布日期: 2025-05-14


💡 一句话要点

研究大型语言模型在冲突预测中的参数化与非参数化知识能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 冲突预测 参数化知识 非参数化知识 检索增强生成 早期预警系统 自然语言处理

📋 核心要点

  1. 现有冲突预测方法依赖人工特征工程和特定领域知识,缺乏通用性和适应性,大型语言模型有望解决这一问题。
  2. 论文探索LLM在冲突预测中的两种模式:仅依赖预训练知识的参数化模式和结合外部信息的非参数化模式。
  3. 实验评估了LLM在非洲之角和中东地区冲突预测的准确性,并分析了外部知识对预测性能的影响。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言任务中表现出色,但其预测暴力冲突的能力尚未充分探索。本文研究LLMs是否具备有意义的参数化知识(编码在其预训练权重中),以便在没有外部数据的情况下预测冲突升级和伤亡情况。这对于早期预警系统、人道主义规划和政策制定至关重要。我们将这种参数化知识与非参数化能力进行比较,后者允许LLMs通过检索增强生成(RAG)访问来自冲突数据集(例如ACLED、GDELT)和最新新闻报道的结构化和非结构化上下文。整合外部信息可以通过提供预训练权重中缺失的最新上下文来提高模型性能。我们的两部分评估框架涵盖2020-2024年非洲之角和中东的冲突地区。在参数化设置中,LLMs仅依靠预训练知识来预测冲突趋势和伤亡人数。在非参数化设置中,模型接收近期冲突事件、指标和地缘政治发展的摘要。我们将预测的冲突趋势标签(例如,升级、稳定冲突、降级、和平)和伤亡人数与历史数据进行比较。我们的研究结果突出了LLMs在冲突预测方面的优势和局限性,以及利用结构化外部知识增强LLMs的益处。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在预测暴力冲突方面的能力,特别是区分和比较LLMs的参数化知识(预训练权重中编码的知识)和非参数化知识(通过检索增强生成RAG获得的外部知识)。现有方法通常依赖于人工设计的特征和特定领域的知识,这限制了它们的泛化能力和适应性。此外,缺乏对LLMs内在知识的系统性研究,阻碍了我们理解LLMs在冲突预测中的潜力。

核心思路:论文的核心思路是对比LLMs在两种不同知识获取模式下的冲突预测表现:一是仅依赖预训练知识的“参数化”模式,二是利用RAG机制获取外部冲突相关信息的“非参数化”模式。通过比较这两种模式,论文旨在揭示LLMs在多大程度上能够利用其内在知识进行冲突预测,以及外部信息如何增强其预测能力。这种对比有助于理解LLMs在冲突预测中的优势和局限性。

技术框架:论文的整体框架包含两个主要部分:参数化知识评估和非参数化知识评估。在参数化知识评估中,LLMs直接利用其预训练权重来预测冲突趋势和伤亡人数。在非参数化知识评估中,LLMs首先通过RAG机制从冲突数据集(如ACLED和GDELT)和新闻报道中检索相关信息,然后利用这些信息进行冲突预测。最后,将两种模式的预测结果与历史数据进行比较,以评估其性能。

关键创新:论文的关键创新在于系统性地研究了LLMs在冲突预测中的参数化和非参数化知识能力,并对比了两种模式的性能。此外,论文还探索了利用RAG机制增强LLMs冲突预测能力的方法。这种方法为利用LLMs进行冲突预测提供了一种新的思路。

关键设计:论文的关键设计包括:1) 使用ACLED和GDELT等冲突数据集作为外部知识来源;2) 利用RAG机制将外部信息整合到LLMs的输入中;3) 设计了评估指标来衡量LLMs预测冲突趋势和伤亡人数的准确性;4) 选择了非洲之角和中东等冲突地区作为实验区域。

📊 实验亮点

论文通过实验发现,LLMs在仅依赖预训练知识的情况下,对冲突趋势和伤亡人数的预测能力有限。然而,通过RAG机制引入外部冲突信息后,LLMs的预测性能得到了显著提升。具体提升幅度未知,但研究强调了外部知识对于提高LLMs冲突预测准确性的重要性。

🎯 应用场景

该研究成果可应用于早期预警系统、人道主义援助规划和政策制定等领域。通过利用LLMs的冲突预测能力,可以更有效地识别潜在的冲突风险,提前采取干预措施,减少人员伤亡和经济损失。此外,该研究还可以为开发更智能的冲突管理工具提供理论基础和技术支持。

📄 摘要(原文)

Large Language Models (LLMs) have shown impressive performance across natural language tasks, but their ability to forecast violent conflict remains underexplored. We investigate whether LLMs possess meaningful parametric knowledge-encoded in their pretrained weights-to predict conflict escalation and fatalities without external data. This is critical for early warning systems, humanitarian planning, and policy-making. We compare this parametric knowledge with non-parametric capabilities, where LLMs access structured and unstructured context from conflict datasets (e.g., ACLED, GDELT) and recent news reports via Retrieval-Augmented Generation (RAG). Incorporating external information could enhance model performance by providing up-to-date context otherwise missing from pretrained weights. Our two-part evaluation framework spans 2020-2024 across conflict-prone regions in the Horn of Africa and the Middle East. In the parametric setting, LLMs predict conflict trends and fatalities relying only on pretrained knowledge. In the non-parametric setting, models receive summaries of recent conflict events, indicators, and geopolitical developments. We compare predicted conflict trend labels (e.g., Escalate, Stable Conflict, De-escalate, Peace) and fatalities against historical data. Our findings highlight the strengths and limitations of LLMs for conflict forecasting and the benefits of augmenting them with structured external knowledge.