Tales of the 2025 Los Angeles Fire: Hotwash for Public Health Concerns in Reddit via LLM-Enhanced Topic Modeling
作者: Sulong Zhou, Qunying Huang, Shaoheng Zhou, Yun Hang, Xinyue Ye, Aodong Mei, Kathryn Phung, Yuning Ye, Uma Govindswamy, Zehan Li
分类: cs.SI, cs.CL
发布日期: 2025-05-14 (更新: 2026-01-05)
备注: Fix typos in Method Section. Add data/code availability
💡 一句话要点
利用LLM增强的主题建模分析Reddit中2025年洛杉矶火灾的公共健康问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主题建模 大型语言模型 人机协作 野火 公共健康
📋 核心要点
- 现有方法难以有效捕捉和分析灾害期间社交媒体上快速演变的公众情绪和健康相关讨论。
- 利用LLM增强的主题建模和人机协作,构建分层框架,识别情境感知和危机叙事两大类主题。
- 分析表明,情境感知与火灾进展相关,心理健康风险在危机叙事中占比高,夜间尤为突出。
📝 摘要(中文)
近年来,野火变得越来越频繁、不规则和严重。了解受影响人群在野火危机期间的感知和反应对于及时和同情的灾害响应至关重要。社交媒体平台提供了一个众包渠道来捕捉不断演变的公共讨论,提供超本地信息和对公众情绪的洞察。本研究分析了2025年洛杉矶野火期间的Reddit讨论,时间跨度从灾难发生到完全控制。我们收集了385个帖子和114,879条与帕利塞德和伊顿火灾相关的评论。我们采用主题建模方法来识别潜在主题,并通过大型语言模型(LLM)和人机协作(HITL)进行增强。此外,我们开发了一个分层框架来对潜在主题进行分类,包括情境感知(SA)和危机叙事(CN)两大类。SA类别的数量与现实世界的火灾进展密切相关,在火灾达到最大范围的最初2-5天内达到峰值。公共健康与安全、损失与损害以及紧急资源的最常见共现类别集扩展了广泛的健康相关潜在主题,包括环境健康、职业健康和一体化健康。悲伤信号和心理健康风险分别占CN实例的60%和40%,夜间总数量最高。本研究贡献了第一个关于2025年洛杉矶火灾的带注释的社交媒体数据集,并引入了一个可扩展的多层框架,该框架利用主题建模进行危机讨论分析。通过识别持续存在的公共健康问题,我们的结果可以为更具同情心和适应性的灾害响应、公共健康沟通以及未来在类似气候相关灾害事件中的研究提供信息。
🔬 方法详解
问题定义:论文旨在解决如何有效利用社交媒体数据,特别是Reddit上的讨论,来理解和应对野火等灾害事件中的公共健康问题。现有方法在处理大规模、非结构化的社交媒体数据时,难以准确识别和分类关键主题,并且缺乏对公众情绪演变的动态跟踪能力。
核心思路:论文的核心思路是结合主题建模、大型语言模型(LLM)和人机协作(HITL),构建一个多层次的框架,以更准确、更全面地分析社交媒体上的灾害相关讨论。通过LLM增强主题建模,可以更好地理解文本的语义信息,而人机协作则可以纠正LLM的偏差,提高主题分类的准确性。
技术框架:该框架包含以下主要阶段:1) 数据收集:收集与2025年洛杉矶野火相关的Reddit帖子和评论。2) 主题建模:使用主题建模方法识别潜在主题。3) LLM增强:利用大型语言模型对主题进行语义增强。4) 人机协作:人工审核和修正LLM生成的主题。5) 分层分类:将主题分为情境感知(SA)和危机叙事(CN)两大类。6) 趋势分析:分析各类主题随时间变化的趋势。
关键创新:该研究的关键创新在于将LLM和HITL融入到传统的主题建模流程中,从而提高了主题识别和分类的准确性和可解释性。此外,构建的情境感知和危机叙事的分层框架,为理解灾害期间的公众情绪和健康问题提供了一个结构化的视角。
关键设计:论文中关键的设计包括:1) 使用BERT等预训练语言模型进行主题的语义增强。2) 设计人机协作流程,让人工专家参与主题的审核和修正。3) 构建情境感知和危机叙事的分层分类体系,并定义明确的分类标准。
🖼️ 关键图片
📊 实验亮点
研究结果表明,情境感知类别的数量与实际火灾进展密切相关,在火灾达到最大范围的最初2-5天内达到峰值。危机叙事中,悲伤信号和心理健康风险分别占60%和40%,夜间总数量最高。这些发现突出了社交媒体在灾害期间反映公众情绪和健康问题的能力。
🎯 应用场景
该研究成果可应用于灾害管理、公共卫生应急响应和舆情监测等领域。通过分析社交媒体数据,可以及时了解公众的需求和担忧,为政府和救援机构提供决策支持,从而更有效地应对灾害,改善公共健康状况,并为未来的气候相关灾害事件研究提供参考。
📄 摘要(原文)
Wildfires have become increasingly frequent, irregular, and severe in recent years. Understanding how affected populations perceive and respond during wildfire crises is critical for timely and empathetic disaster response. Social media platforms offer a crowd-sourced channel to capture evolving public discourse, providing hyperlocal information and insight into public sentiment. This study analyzes Reddit discourse during the 2025 Los Angeles wildfires, spanning from the onset of the disaster to full containment. We collect 385 posts and 114,879 comments related to the Palisades and Eaton fires. We adopt topic modeling methods to identify the latent topics, enhanced by large language models (LLMs) and human-in-the-loop (HITL) refinement. Furthermore, we develop a hierarchical framework to categorize latent topics, consisting of two main categories, Situational Awareness (SA) and Crisis Narratives (CN). The volume of SA category closely aligns with real-world fire progressions, peaking within the first 2-5 days as the fires reach the maximum extent. The most frequent co-occurring category set of public health and safety, loss and damage, and emergency resources expands on a wide range of health-related latent topics, including environmental health, occupational health, and one health. Grief signals and mental health risks consistently accounted for 60 percentage and 40 percentage of CN instances, respectively, with the highest total volume occurring at night. This study contributes the first annotated social media dataset on the 2025 LA fires, and introduces a scalable multi-layer framework that leverages topic modeling for crisis discourse analysis. By identifying persistent public health concerns, our results can inform more empathetic and adaptive strategies for disaster response, public health communication, and future research in comparable climate-related disaster events.