Bayesian Modeling of Zero-Shot Classifications for Urban Flood Detection

📄 arXiv: 2503.14754v2 📥 PDF

作者: Matt Franchi, Nikhil Garg, Wendy Ju, Emma Pierson

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-03-18 (更新: 2025-03-26)

备注: In review


💡 一句话要点

提出BayFlood,结合零样本视觉语言模型与贝叶斯模型用于城市洪水检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 城市洪水检测 零样本学习 贝叶斯模型 视觉语言模型 空间建模

📋 核心要点

  1. 城市街道场景数据集缺乏可靠标签,难以直接用于洪水等事件检测,主要挑战在于事件类型繁多且发生频率低。
  2. BayFlood方法利用预训练视觉-语言模型进行零样本分类,再通过空间贝叶斯模型进行优化,无需大量标注数据。
  3. 实验表明,该方法在多个城市和时间段内有效,优于基线方法,并能识别现有方法忽略的高风险人群。

📝 摘要(中文)

本文提出BayFlood,一种两阶段方法,旨在解决城市街道场景数据集中洪水检测标签不足的问题。首先,利用预训练的视觉-语言模型(VLM)对事件发生地点进行零样本分类。其次,对VLM分类结果拟合空间贝叶斯模型。零样本方法避免了标注大型训练集的需要,而贝叶斯模型提供了城市环境中常用的特性,如不确定性评估、空间平滑以及外部数据(如雨水积聚区)的整合。经验证,VLM为多个城市和时间段的洪水提供了强大的零样本信号,贝叶斯模型改进了超出样本的预测,并且推断的洪水风险与已知的外部风险预测因子相关。该方法可用于改进城市洪水检测,揭示了现有方法忽略的高洪水风险人群,识别了现有方法中的人口统计偏差,并为新的洪水传感器提供了位置建议。该研究表明,零样本语言模型标注的贝叶斯建模是一种有前景的范例,因为它避免了收集大型标记数据集的需求,并利用了基础模型的力量,同时提供了贝叶斯模型的表达性和不确定性量化。

🔬 方法详解

问题定义:论文旨在解决城市洪水检测中,由于缺乏可靠标注数据而导致的难以训练有效模型的问题。现有方法依赖于大量标注数据,成本高昂且难以覆盖所有类型的洪水事件。此外,现有方法通常缺乏对不确定性的有效建模,难以提供可靠的风险评估。

核心思路:论文的核心思路是利用预训练的视觉-语言模型(VLM)的零样本分类能力,结合贝叶斯模型进行空间建模和不确定性量化。VLM能够根据文本描述识别图像中的洪水事件,无需针对特定数据集进行训练。贝叶斯模型则能够整合先验知识(如雨水积聚区),并对VLM的预测结果进行平滑和校正。

技术框架:BayFlood方法包含两个主要阶段:1) 零样本分类阶段:使用预训练的VLM(例如CLIP)对街道图像进行分类,判断图像中是否存在洪水事件。VLM将图像和文本描述(例如“洪水”)映射到同一个向量空间,并计算它们之间的相似度。2) 贝叶斯建模阶段:使用空间贝叶斯模型对VLM的分类结果进行建模。该模型考虑了空间自相关性,即相邻位置的洪水风险可能存在关联。此外,该模型还可以整合外部数据,例如雨水积聚区,作为先验信息。

关键创新:该方法最重要的创新点在于将零样本学习和贝叶斯建模相结合,从而在缺乏标注数据的情况下实现有效的洪水检测。与传统的监督学习方法相比,该方法无需大量标注数据,降低了训练成本。与简单的零样本分类相比,贝叶斯模型能够提供更准确的风险评估,并量化不确定性。

关键设计:贝叶斯模型采用高斯过程作为先验分布,对空间自相关性进行建模。模型的参数包括高斯过程的核函数参数、VLM分类结果的权重以及外部数据的权重。这些参数通过最大后验估计(MAP)进行估计。损失函数包括VLM分类结果的负对数似然和先验分布的负对数似然。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BayFlood方法在多个城市和时间段内均表现良好,优于基线方法。具体而言,贝叶斯模型改进了超出样本的预测,并且推断的洪水风险与已知的外部风险预测因子相关。该研究还揭示了现有方法忽略的高洪水风险人群,并识别了现有方法中的人口统计偏差。

🎯 应用场景

该研究成果可应用于城市防洪减灾、城市规划和应急响应等领域。通过更准确地识别洪水高风险区域,可以优化防洪设施的建设,制定更有效的应急预案,并为居民提供更及时的预警信息。此外,该方法还可以用于评估现有防洪措施的有效性,并识别潜在的风险点。

📄 摘要(原文)

Street scene datasets, collected from Street View or dashboard cameras, offer a promising means of detecting urban objects and incidents like street flooding. However, a major challenge in using these datasets is their lack of reliable labels: there are myriad types of incidents, many types occur rarely, and ground-truth measures of where incidents occur are lacking. Here, we propose BayFlood, a two-stage approach which circumvents this difficulty. First, we perform zero-shot classification of where incidents occur using a pretrained vision-language model (VLM). Second, we fit a spatial Bayesian model on the VLM classifications. The zero-shot approach avoids the need to annotate large training sets, and the Bayesian model provides frequent desiderata in urban settings - principled measures of uncertainty, smoothing across locations, and incorporation of external data like stormwater accumulation zones. We comprehensively validate this two-stage approach, showing that VLMs provide strong zero-shot signal for floods across multiple cities and time periods, the Bayesian model improves out-of-sample prediction relative to baseline methods, and our inferred flood risk correlates with known external predictors of risk. Having validated our approach, we show it can be used to improve urban flood detection: our analysis reveals 113,738 people who are at high risk of flooding overlooked by current methods, identifies demographic biases in existing methods, and suggests locations for new flood sensors. More broadly, our results showcase how Bayesian modeling of zero-shot LM annotations represents a promising paradigm because it avoids the need to collect large labeled datasets and leverages the power of foundation models while providing the expressiveness and uncertainty quantification of Bayesian models.