Large Language Models for Causal Relations Extraction in Social Media: A Validation Framework for Disaster Intelligence

📄 arXiv: 2605.11348v1 📥 PDF

作者: Ujun Jeong, Saketh Vishnubhatla, Bohan Jiang, Andre Harrison, Adrienne Raglin, Huan Liu

分类: cs.CL, cs.AI, cs.IR, cs.SI

发布日期: 2026-05-12

备注: Submitted to EMNLP


💡 一句话要点

提出基于专家知识的评估框架,验证大型语言模型在灾害情报中提取因果关系的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 因果关系提取 灾害情报 社交媒体分析 评估框架

📋 核心要点

  1. 灾害社交媒体信息非正式且碎片化,难以从中准确提取因果关系,现有方法效果不佳。
  2. 提出基于专家知识的评估框架,对比LLM生成图与灾害报告参考图,评估因果关系提取质量。
  3. 评估提取的因果关系是否由事件后证据支持,或仅反映模型先验,揭示LLM的潜力和风险。

📝 摘要(中文)

在灾害期间,从社交媒体中提取因果关系可以通过识别与伤亡、物理损坏、基础设施中断和连锁反应相关的因素来加强态势感知。然而,与灾害相关的帖子通常是非正式的、碎片化的和依赖于上下文的,并且它们可能描述个人经历而不是明确的因果关系。本文研究了大型语言模型(LLM)是否可以有效地从与灾害相关的社交媒体帖子中提取因果关系。为此,我们(1)提出了一个基于专家知识的评估框架,该框架将LLM生成的因果图与源自灾害特定报告的参考图进行比较,以及(2)评估提取的关系是否得到事件后证据的支持,或者反映模型先验。我们的研究结果突出了在灾害决策支持系统中使用LLM进行因果关系提取的潜力和风险。

🔬 方法详解

问题定义:论文旨在解决从灾害相关的社交媒体帖子中准确提取因果关系的问题。现有方法难以处理社交媒体文本的非正式性、碎片化和上下文依赖性,导致提取的因果关系不准确或不完整。此外,现有方法缺乏有效的评估机制来验证提取的因果关系的可靠性。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解和生成能力,自动从社交媒体文本中提取因果关系。同时,为了解决LLM可能存在的偏差和幻觉问题,论文提出了一个基于专家知识的评估框架,将LLM生成的因果图与从灾害报告中提取的参考图进行比较,从而评估LLM的性能。

技术框架:论文的技术框架主要包含以下几个阶段:1) 数据收集:收集与特定灾害相关的社交媒体帖子;2) 因果关系提取:使用LLM从社交媒体帖子中提取因果关系,构建因果图;3) 参考图构建:从灾害报告等权威来源提取因果关系,构建参考图;4) 评估:将LLM生成的因果图与参考图进行比较,评估LLM的性能;5) 证据验证:验证提取的因果关系是否得到事件后证据的支持。

关键创新:论文的关键创新在于提出了一个基于专家知识的评估框架,用于评估LLM在因果关系提取任务中的性能。该框架通过将LLM生成的因果图与参考图进行比较,可以有效地识别LLM提取的因果关系的准确性和完整性。此外,论文还评估了提取的因果关系是否得到事件后证据的支持,从而进一步验证了LLM的可靠性。

关键设计:论文的关键设计包括:1) 参考图的构建方法,需要选择合适的灾害报告等权威来源,并设计有效的因果关系提取规则;2) LLM的选择和微调策略,需要根据具体任务选择合适的LLM,并使用灾害相关的文本数据进行微调;3) 评估指标的设计,需要选择合适的指标来衡量LLM生成的因果图与参考图之间的相似度,例如精确率、召回率和F1值。

🖼️ 关键图片

fig_0

📊 实验亮点

论文提出了一个新颖的评估框架,并使用该框架评估了LLM在灾害因果关系提取方面的性能。实验结果表明,LLM在一定程度上可以有效地提取因果关系,但也存在一些局限性,例如容易受到模型先验的影响。该研究为LLM在灾害管理领域的应用提供了有价值的参考。

🎯 应用场景

该研究成果可应用于灾害决策支持系统,帮助决策者快速了解灾害的影响因素和发展趋势,从而制定更有效的应对措施。此外,该方法还可以应用于其他领域,例如舆情分析、风险评估和政策制定等,具有广泛的应用前景。

📄 摘要(原文)

During disasters, extracting causal relations from social media can strengthen situational awareness by identifying factors linked to casualties, physical damage, infrastructure disruption, and cascading impacts. However, disaster-related posts are often informal, fragmented, and context-dependent, and they may describe personal experiences rather than explicit causal relations. In this work, we examine whether Large Language Models (LLMs) can effectively extract causal relations from disaster-related social media posts. To this end, we (1) propose an expert-grounded evaluation framework that compares LLM-generated causal graphs with reference graphs derived from disaster-specific reports and (2) assess whether the extracted relations are supported by post-event evidence or instead reflect model priors. Our findings highlight both the potential and risks of using LLMs for causal relation extraction in disaster decision-support systems.