Knowledge-Data Dually Driven Paradigm for Accurate Landslide Susceptibility Prediction under Data-Scarce Conditions Using Geomorphic Priors and Tabular Foundation Model
作者: Yuting Yang, Gang Mei, Feng Chen, Yongshuang Zhang, Jianbing Peng
分类: cs.LG
发布日期: 2026-04-28
💡 一句话要点
提出知识-数据双驱动范式,利用地貌先验和表格基础模型解决数据稀缺下的滑坡易发性预测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 滑坡易发性预测 数据稀缺 知识驱动 地貌先验 表格基础模型
📋 核心要点
- 传统滑坡易发性预测依赖大量数据,但在山区高原等区域,数据稀缺成为主要挑战,限制了传统方法的应用。
- 论文提出知识-数据双驱动范式,融合地貌先验知识与少量滑坡数据,提升数据稀缺场景下的预测精度。
- 实验表明,该范式在数据稀缺情况下,能达到甚至超越传统数据驱动方法的预测精度,具有实际应用价值。
📝 摘要(中文)
滑坡易发性预测对于地质灾害风险评估和减缓至关重要。传统的数据驱动范式虽然能实现高预测精度,但需要充足的条件因子和大规模的滑坡清单。然而,在山区和高原地区的实际工程应用中,数据稀缺的情况普遍存在,难以满足传统数据驱动范式的要求。为了解决这个问题,我们提出了一种知识-数据双驱动范式,用于在数据稀缺条件下进行准确的滑坡易发性预测。该范式的核心思想是将地貌先验知识与稀缺的滑坡数据相结合。为了验证该范式,我们首先将其应用于意大利中部的数据丰富区域,并将基于完整数据集训练的传统数据驱动范式作为基线。结果表明,仅使用30%的可用滑坡数据,该范式就实现了与基线相当的预测精度,证明了其在数据稀缺条件下的有效性。该范式还在青藏高原祁连山多年冻土区的真实数据稀缺环境中进行了评估,并获得了可靠的易发性预测结果,证实了其在数据稀缺条件下的适用性。
🔬 方法详解
问题定义:传统数据驱动的滑坡易发性预测方法依赖于大量的滑坡数据和条件因子,但在实际工程应用中,特别是在山区和高原地区,由于数据采集困难等原因,往往面临数据稀缺的问题。这使得传统的数据驱动方法难以应用,或者预测精度显著下降。因此,如何在数据稀缺的条件下,实现准确的滑坡易发性预测是一个亟待解决的问题。
核心思路:论文的核心思路是将地貌先验知识与稀缺的滑坡数据相结合,构建一个知识-数据双驱动的预测模型。地貌先验知识可以弥补数据稀缺带来的信息不足,提高模型的泛化能力。通过融合地貌知识和少量数据,模型能够更准确地识别滑坡发生的潜在风险区域。
技术框架:该范式的整体框架包括以下几个主要步骤:1) 地貌先验知识提取:利用数字高程模型(DEM)等数据,提取坡度、坡向、曲率等地貌特征,作为先验知识。2) 数据准备:收集已有的少量滑坡数据和相关的环境因子数据。3) 特征工程:对地貌先验知识和环境因子数据进行特征工程,提取有用的特征。4) 模型构建:构建基于表格基础模型的预测模型,将地貌先验知识和环境因子数据作为输入,滑坡发生与否作为输出。5) 模型训练与验证:使用少量滑坡数据训练模型,并在独立的数据集上进行验证,评估模型的预测精度。
关键创新:该论文的关键创新在于提出了知识-数据双驱动的范式,将地貌先验知识有效地融入到滑坡易发性预测模型中。与传统的数据驱动方法相比,该范式能够在数据稀缺的条件下,显著提高预测精度。此外,使用表格基础模型也提升了模型对异构数据的处理能力。
关键设计:论文中关键的设计包括:1) 地貌先验知识的选取:选择对滑坡发生具有重要影响的地貌特征,如坡度、坡向、曲率等。2) 特征工程的方法:采用合适的特征工程方法,将地貌先验知识和环境因子数据转化为模型可以接受的输入形式。3) 表格基础模型的选择与参数调优:选择适合滑坡易发性预测的表格基础模型,并进行参数调优,以获得最佳的预测性能。4) 损失函数的设计:根据滑坡易发性预测的特点,设计合适的损失函数,以提高模型的训练效果。
🖼️ 关键图片
📊 实验亮点
在意大利中部的数据丰富区域,仅使用30%的滑坡数据,该范式就实现了与使用全部数据训练的传统数据驱动方法相当的预测精度。在青藏高原祁连山多年冻土区的真实数据稀缺环境中,该范式也获得了可靠的易发性预测结果,验证了其在不同数据条件下的适用性和有效性。
🎯 应用场景
该研究成果可应用于山区、高原等数据稀缺地区的滑坡灾害风险评估与防治。通过融合地貌先验知识,能够更准确地识别潜在的滑坡风险区域,为土地利用规划、工程建设和灾害应急管理提供科学依据,具有重要的社会经济价值和减灾意义。未来可扩展到其他地质灾害的预测与评估中。
📄 摘要(原文)
Landslide susceptibility prediction is critical for geohazard risk assessment and mitigation. Conventional data-driven paradigm achieves high predictive accuracy but require sufficient conditioning factors and large-scale landslide inventories. However, in practical engineering applications across mountainous and plateau regions, data-scarce conditions are commonly observed, where such data requirements are rarely satisfied, rendering conventional data-driven paradigm inapplicable. To address this issue, we propose a knowledge-data dually driven paradigm for accurate landslide susceptibility prediction under data-scarce conditions. The essential idea behind the proposed novel paradigm is the integration of the geomorphic prior knowledge with scarce landslide data. To validate the proposed paradigm, we first applied it to a data-rich region in central Italy, where a conventional data-driven paradigm trained on the full dataset served as the baseline. By utilizing only 30% of the available landslide data, the proposed paradigm achieved comparable predictive accuracy to the baseline, demonstrating its effectiveness under data-scarce conditions. The paradigm was further evaluated in a genuinely data-scarce environment for application, the Qilian Permafrost Region of the Tibetan Plateau, where it also yielded reliable susceptibility predictions, confirming its applicability under data-scarce conditions.