FloodVision: Urban Flood Depth Estimation Using Foundation Vision-Language Models and Domain Knowledge Graph

📄 arXiv: 2509.04772v1 📥 PDF

作者: Zhangding Liu, Neda Mohammadi, John E. Taylor

分类: cs.CV, cs.AI

发布日期: 2025-09-05


💡 一句话要点

FloodVision:结合视觉语言模型与领域知识图谱的城市洪水深度估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 洪水深度估计 视觉语言模型 领域知识图谱 零样本学习 城市防洪

📋 核心要点

  1. 现有洪水检测方法依赖固定目标检测器和特定任务训练,导致精度受限且泛化能力差。
  2. FloodVision利用GPT-4o的语义推理能力和领域知识图谱,实现零样本的洪水深度估计。
  3. 实验表明,FloodVision在洪水深度估计方面优于GPT-4o基线和传统CNN方法,且泛化性良好。

📝 摘要(中文)

本文提出FloodVision,一个零样本框架,用于准确估计城市洪水深度,这对道路通行和应急响应至关重要。该框架结合了基础视觉语言模型GPT-4o的语义推理能力和结构化的领域知识图谱。知识图谱编码了车辆、人员和基础设施等常见城市物体的标准尺寸,以使模型的推理基于物理现实。FloodVision动态识别RGB图像中的可见参考对象,从知识图谱中检索验证过的高度以减少幻觉,估计淹没比例,并应用统计异常值过滤来计算最终深度值。在MyCoast New York的110张众包图像上评估,FloodVision实现了8.17厘米的平均绝对误差,比GPT-4o基线降低了10.28厘米,降低幅度为20.5%,并且优于先前的基于CNN的方法。该系统在不同场景中具有良好的泛化能力,并能接近实时运行,使其适合未来集成到数字孪生平台和公民报告应用程序中,以提高智慧城市的洪水韧性。

🔬 方法详解

问题定义:现有基于计算机视觉的洪水检测方法,依赖于固定的目标检测器和特定任务的训练数据,导致在面对不同场景时,精度和泛化能力都存在局限性。尤其是在洪水深度估计方面,缺乏有效的零样本方法。

核心思路:FloodVision的核心思路是结合视觉语言模型(GPT-4o)的语义理解能力和领域知识图谱的结构化知识,从而实现零样本的洪水深度估计。通过知识图谱提供先验知识,约束模型的推理过程,减少幻觉,提高深度估计的准确性。

技术框架:FloodVision的整体框架包含以下几个主要阶段:1) 参考对象识别:利用GPT-4o识别RGB图像中的可见参考对象(如车辆、行人、建筑物等)。2) 知识检索:从领域知识图谱中检索这些参考对象的标准高度信息。3) 淹没比例估计:根据图像中参考对象的可见部分,估计其淹没比例。4) 深度计算:结合参考对象的高度和淹没比例,计算洪水深度。5) 异常值过滤:应用统计方法过滤异常值,提高深度估计的鲁棒性。

关键创新:FloodVision的关键创新在于:1) 零样本学习:无需特定任务的训练数据,即可实现洪水深度估计。2) 知识图谱增强:利用领域知识图谱约束模型的推理,减少幻觉,提高准确性。3) 动态参考对象选择:根据图像内容动态选择参考对象,提高适应性。与现有方法相比,FloodVision避免了对固定目标检测器的依赖,具有更强的泛化能力。

关键设计:FloodVision的关键设计包括:1) 领域知识图谱的构建:知识图谱包含常见城市对象的标准高度信息,并经过验证,以确保信息的准确性。2) 统计异常值过滤:采用基于统计的方法(具体方法未知)来过滤深度估计中的异常值,提高鲁棒性。3) GPT-4o的提示工程:设计合适的提示语,引导GPT-4o识别参考对象并进行语义推理(具体提示语未知)。

📊 实验亮点

FloodVision在MyCoast New York的110张众包图像上进行了评估,实现了8.17厘米的平均绝对误差。相比于GPT-4o基线,FloodVision的误差降低了10.28厘米,降幅达20.5%。同时,FloodVision的性能也优于先前的基于CNN的洪水深度估计方法,证明了其在零样本学习和泛化能力方面的优势。

🎯 应用场景

FloodVision可应用于智慧城市建设中的洪水监测与预警系统。通过集成到数字孪生平台或公民报告应用程序中,可以实时估计城市洪水深度,为道路通行管理、应急响应和灾后重建提供决策支持。该技术还有助于提高城市对极端天气事件的适应能力,减少洪水造成的损失。

📄 摘要(原文)

Timely and accurate floodwater depth estimation is critical for road accessibility and emergency response. While recent computer vision methods have enabled flood detection, they suffer from both accuracy limitations and poor generalization due to dependence on fixed object detectors and task-specific training. To enable accurate depth estimation that can generalize across diverse flood scenarios, this paper presents FloodVision, a zero-shot framework that combines the semantic reasoning abilities of the foundation vision-language model GPT-4o with a structured domain knowledge graph. The knowledge graph encodes canonical real-world dimensions for common urban objects including vehicles, people, and infrastructure elements to ground the model's reasoning in physical reality. FloodVision dynamically identifies visible reference objects in RGB images, retrieves verified heights from the knowledge graph to mitigate hallucination, estimates submergence ratios, and applies statistical outlier filtering to compute final depth values. Evaluated on 110 crowdsourced images from MyCoast New York, FloodVision achieves a mean absolute error of 8.17 cm, reducing the GPT-4o baseline 10.28 cm by 20.5% and surpassing prior CNN-based methods. The system generalizes well across varying scenes and operates in near real-time, making it suitable for future integration into digital twin platforms and citizen-reporting apps for smart city flood resilience.