Public Health in Disaster: Emotional Health and Life Incidents Extraction during Hurricane Harvey

📄 arXiv: 2408.11133v1 📥 PDF

作者: Thomas Hoang, Quynh Anh Nguyen, Long Nguyen

分类: cs.IR, cs.CL

发布日期: 2024-08-20


💡 一句话要点

提出结合BERT、LDA、GNN和LLM的情绪与事件提取框架,用于灾害公共健康分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灾害管理 社交媒体分析 情绪识别 事件提取 图神经网络

📋 核心要点

  1. 现有方法在灾害事件分析中,通常依赖人工内容分析或仅停留在主题识别层面,效率和深度不足。
  2. 该论文提出一种结合BERT、LDA、GNN和LLM的自动化框架,用于从社交媒体数据中提取情绪和关键事件。
  3. 通过GNN优化聚类并利用LLM生成事件描述,该方法能够更深入地理解灾害事件的影响,为灾害应对提供支持。

📝 摘要(中文)

气候变化导致了无数灾难,对基础设施和经济造成了严重破坏。这些灾难对社会产生了重大影响,需要为数百万受影响者提供心理健康服务。为了有效准备和应对此类事件,重要的是了解人们在灾难发生前后经历的情绪和生活事件。在本案例研究中,我们收集了大约40万条与飓风哈维相关的公开推文数据集。使用基于BERT的模型,我们预测了与每条推文相关的情绪。为了有效地识别这些主题,我们利用潜在狄利克雷分配(LDA)技术进行主题建模,从而绕过手动内容分析并从数据中提取有意义的模式。然而,与先前方法仅停留在主题识别不同,我们通过整合图神经网络(GNN)和大型语言模型(LLM)进一步改进了分析。GNN用于生成嵌入并构建推文的相似性图,然后用于优化聚类。随后,我们使用LLM自动生成每个事件集群的描述性名称,为灾害准备和响应策略提供关键见解。

🔬 方法详解

问题定义:论文旨在解决灾害事件发生后,如何快速有效地从社交媒体数据中提取民众的情绪状态和关键生活事件,以便为公共健康服务提供决策支持。现有方法主要依赖人工分析,效率低下且难以处理大规模数据。一些基于主题建模的方法虽然可以自动识别主题,但缺乏对事件之间关系的深入挖掘,且主题描述不够清晰。

核心思路:论文的核心思路是结合多种自然语言处理技术,构建一个自动化的情绪和事件提取框架。首先利用BERT模型进行情绪识别,然后使用LDA进行主题建模,接着利用GNN对推文进行聚类,最后使用LLM生成事件描述。通过多模型的协同工作,实现对灾害事件的全面分析。

技术框架:整体框架包含以下几个主要模块: 1. 数据收集:收集与特定灾害事件相关的社交媒体数据(例如,推特)。 2. 情绪识别:使用BERT模型对每条推文进行情绪分类。 3. 主题建模:使用LDA算法从推文中提取主题。 4. GNN聚类:使用GNN生成推文的嵌入表示,并构建相似性图,然后利用图结构优化聚类结果。 5. LLM事件描述:使用LLM为每个事件簇生成描述性名称。

关键创新:该论文的关键创新在于整合了GNN和LLM,以提升事件提取的准确性和可解释性。与传统方法相比,GNN能够更好地捕捉推文之间的语义关系,从而优化聚类效果。LLM则能够自动生成事件描述,避免了人工标注的繁琐和主观性。

关键设计: * BERT模型:用于情绪分类,选择预训练的BERT模型并进行微调,以适应特定灾害事件的语料库。 * LDA算法:用于主题建模,需要设置主题数量等参数,并对结果进行评估和调整。 * GNN模型:用于生成推文的嵌入表示,并构建相似性图。GNN的结构和训练方式需要根据具体数据集进行设计。 * LLM模型:用于生成事件描述,选择合适的LLM模型,并设计合适的prompt,以引导LLM生成准确和简洁的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过结合BERT、LDA、GNN和LLM,构建了一个自动化的情绪和事件提取框架。实验结果表明,该方法能够有效地从社交媒体数据中提取有意义的事件信息,并生成清晰的事件描述,为灾害应对提供有价值的参考。具体性能数据未知,但该方法在事件提取的准确性和可解释性方面优于传统方法。

🎯 应用场景

该研究成果可应用于灾害管理、公共卫生监测、舆情分析等领域。通过实时分析社交媒体数据,可以帮助政府和救援组织快速了解灾情、评估民众需求,并制定相应的应对策略。此外,该方法还可以用于其他类型的突发事件分析,例如疫情爆发、社会动荡等。

📄 摘要(原文)

Countless disasters have resulted from climate change, causing severe damage to infrastructure and the economy. These disasters have significant societal impacts, necessitating mental health services for the millions affected. To prepare for and respond effectively to such events, it is important to understand people's emotions and the life incidents they experience before and after a disaster strikes. In this case study, we collected a dataset of approximately 400,000 public tweets related to the storm. Using a BERT-based model, we predicted the emotions associated with each tweet. To efficiently identify these topics, we utilized the Latent Dirichlet Allocation (LDA) technique for topic modeling, which allowed us to bypass manual content analysis and extract meaningful patterns from the data. However, rather than stopping at topic identification like previous methods \cite{math11244910}, we further refined our analysis by integrating Graph Neural Networks (GNN) and Large Language Models (LLM). The GNN was employed to generate embeddings and construct a similarity graph of the tweets, which was then used to optimize clustering. Subsequently, we used an LLM to automatically generate descriptive names for each event cluster, offering critical insights for disaster preparedness and response strategies.