Predictive Modeling of Flood-Prone Areas Using SAR and Environmental Variables

📄 arXiv: 2512.13710v2 📥 PDF

作者: Edwin Oluoch Awino, Denis Machanda

分类: cs.LG

发布日期: 2025-12-06 (更新: 2025-12-24)

备注: There is an error with this document and I am checking to correct it and I will update it


💡 一句话要点

结合SAR与环境数据,提出基于随机森林的洪水易发区预测模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 洪水易发性 SAR遥感 机器学习 随机森林 环境因子

📋 核心要点

  1. 现有洪水易发性分析方法在数据稀缺地区存在局限性,难以准确评估风险。
  2. 利用SAR数据提取洪水信息,并结合环境因子,使用机器学习模型进行洪水易发性预测。
  3. 随机森林模型表现最佳,准确率达到0.762,Kappa系数为0.480,验证了该方法在洪水预测中的有效性。

📝 摘要(中文)

洪水是全球最具破坏性的自然灾害之一,对生态系统、基础设施和人类生计构成严重威胁。本研究结合合成孔径雷达(SAR)影像与环境及水文数据,对肯尼亚西部尼亚多河流域的洪水易发性进行建模。利用2024年5月洪灾事件的Sentinel-1双极化SAR数据生成二元洪水清单,作为机器学习(ML)模型的训练数据。将坡度、海拔、坡向、土地利用/土地覆盖、土壤类型和距河流距离等六个条件因子与SAR衍生的洪水清单相结合,训练了逻辑回归(LR)、分类与回归树(CART)、支持向量机(SVM)和随机森林(RF)四种监督分类器。使用准确率、Cohen's Kappa系数和受试者工作特征(ROC)曲线分析评估模型性能。结果表明,RF实现了最高的预测性能(准确率=0.762;Kappa=0.480),优于LR、CART和SVM。基于RF的易发性地图显示,维多利亚湖附近的低洼卡诺平原具有最高的洪水脆弱性,这与历史洪水记录和2024年5月事件的影响相符。这些发现证明了在数据有限的地区,结合SAR数据和集成ML方法进行洪水易发性 mapping 的价值。由此产生的地图为降低灾害风险、土地利用规划和早期预警系统开发提供了重要见解。

🔬 方法详解

问题定义:论文旨在解决数据稀缺地区洪水易发区预测不准确的问题。传统方法依赖于历史数据和人工调查,成本高昂且难以覆盖大范围区域。现有方法难以有效利用遥感数据和环境数据进行综合分析,导致预测精度不足。

核心思路:论文的核心思路是结合SAR遥感数据和环境因子,利用机器学习模型自动学习洪水发生的规律,从而实现对洪水易发区的准确预测。SAR数据能够穿透云层,获取地表信息,弥补光学遥感数据的不足。环境因子则反映了地形、地貌、土壤等自然条件对洪水的影响。

技术框架:整体框架包括数据预处理、特征提取、模型训练和结果评估四个主要阶段。首先,对Sentinel-1 SAR数据进行处理,生成洪水清单。然后,提取坡度、海拔、坡向、土地利用/土地覆盖、土壤类型和距河流距离等环境因子。接着,将洪水清单和环境因子作为输入,训练逻辑回归(LR)、分类与回归树(CART)、支持向量机(SVM)和随机森林(RF)四种监督分类器。最后,使用准确率、Cohen's Kappa系数和ROC曲线分析评估模型性能。

关键创新:论文的关键创新在于将SAR数据与环境因子相结合,并采用集成学习方法进行洪水易发性预测。SAR数据提供了实时的地表信息,环境因子反映了地形地貌特征,集成学习方法能够有效提高模型的预测精度和泛化能力。

关键设计:论文的关键设计包括:1) 使用Sentinel-1双极化SAR数据,能够获取更丰富的地表信息;2) 选择坡度、海拔、坡向、土地利用/土地覆盖、土壤类型和距河流距离等六个关键环境因子;3) 采用随机森林模型,能够有效处理高维数据和非线性关系;4) 使用准确率、Cohen's Kappa系数和ROC曲线分析等多种指标综合评估模型性能。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,随机森林模型在洪水易发性预测中表现最佳,准确率达到0.762,Kappa系数为0.480,显著优于逻辑回归、分类与回归树和支持向量机模型。基于随机森林的易发性地图与历史洪水记录和2024年5月洪灾事件的影响高度吻合,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于灾害风险降低、土地利用规划和早期预警系统开发。通过生成洪水易发性地图,可以帮助政府和社区识别高风险区域,制定合理的防洪措施,减少洪水造成的损失。此外,该方法还可以推广到其他自然灾害的风险评估和预测中。

📄 摘要(原文)

Flooding is one of the most destructive natural hazards worldwide, posing serious risks to ecosystems, infrastructure, and human livelihoods. This study combines Synthetic Aperture Radar (SAR) imagery with environmental and hydrological data to model flood susceptibility in the River Nyando watershed, western Kenya. Sentinel-1 dual-polarization SAR data from the May 2024 flood event were processed to produce a binary flood inventory, which served as training data for machine learning (ML) models. Six conditioning factors -- slope, elevation, aspect, land use/land cover, soil type, and distance from streams -- were integrated with the SAR-derived flood inventory to train four supervised classifiers: Logistic Regression (LR), Classification and Regression Trees (CART), Support Vector Machines (SVM), and Random Forest (RF). Model performance was assessed using accuracy, Cohen's Kappa, and Receiver Operating Characteristic (ROC) analysis. Results indicate that RF achieved the highest predictive performance (accuracy = 0.762; Kappa = 0.480), outperforming LR, CART, and SVM. The RF-based susceptibility map showed that low-lying Kano Plains near Lake Victoria have the highest flood vulnerability, consistent with historical flood records and the impacts of the May 2024 event. These findings demonstrate the value of combining SAR data and ensemble ML methods for flood susceptibility mapping in regions with limited data. The resulting maps offer important insights for disaster risk reduction, land-use planning, and early warning system development.