U-Net with Hadamard Transform and DCT Latent Spaces for Next-day Wildfire Spread Prediction

📄 arXiv: 2602.11672v1 📥 PDF

作者: Yingyi Luo, Shuaiang Rong, Adam Watts, Ahmet Enis Cetin

分类: cs.CV

发布日期: 2026-02-12


💡 一句话要点

提出TD-FusionUNet,利用变换域融合进行轻量级次日野火蔓延预测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 野火蔓延预测 U-Net Hadamard变换 离散余弦变换 多模态数据融合 轻量级模型 深度学习

📋 核心要点

  1. 现有野火蔓延预测方法通常计算成本高昂,难以在资源受限的环境中实时应用。
  2. TD-FusionUNet通过引入可训练的Hadamard变换和离散余弦变换层,在正交潜在空间中提取频率分量,实现高效特征表示。
  3. 实验表明,TD-FusionUNet在参数量远小于ResNet18 UNet的情况下,仍取得了更高的F1分数,验证了其轻量高效的特性。

📝 摘要(中文)

本文提出了一种轻量级且计算高效的次日野火蔓延预测工具,该工具使用多模态卫星数据作为输入。该深度学习模型,名为变换域融合UNet(TD-FusionUNet),结合了可训练的Hadamard变换和离散余弦变换层,这些变换层应用二维变换,使网络能够在正交化的潜在空间中捕获关键的“频率”分量。此外,我们引入了自定义的预处理技术,包括随机边距裁剪和高斯混合模型,以丰富稀疏的火灾前掩码的表示,并增强模型的泛化能力。TD-FusionUNet在Google Research于2023年发布的Next-Day Wildfire Spread数据集和WildfireSpreadTS数据集上进行了评估。提出的TD-FusionUNet以370k的参数实现了0.591的F1分数,优于WildfireSpreadTS数据集中报告的以ResNet18作为编码器的UNet基线,同时使用的参数明显更少。这些结果表明,所提出的潜在空间融合模型在轻量级设置下平衡了准确性和效率,使其适用于资源受限环境中的实时野火预测应用。

🔬 方法详解

问题定义:论文旨在解决次日野火蔓延的预测问题。现有方法,特别是基于深度学习的方法,通常需要大量的计算资源和参数,难以在资源受限的环境中部署和实时应用。因此,如何在保证预测精度的前提下,降低模型的计算复杂度,是本研究需要解决的关键问题。

核心思路:论文的核心思路是利用变换域(Transform Domain)的特性,通过Hadamard变换和离散余弦变换(DCT)将输入数据转换到频率域,从而提取更具代表性的特征。这种方法可以有效地减少冗余信息,降低模型的参数量,同时保留关键的野火蔓延信息。通过在潜在空间中进行融合,模型能够更好地理解多模态卫星数据,从而提高预测精度。

技术框架:TD-FusionUNet的整体架构基于U-Net,但对其进行了改进以适应野火蔓延预测任务。主要包括以下几个模块:1) 输入层:接收多模态卫星数据;2) 变换层:使用可训练的Hadamard变换和DCT层将输入数据转换到频率域;3) 编码器:提取频率域特征;4) 解码器:将频率域特征解码回空间域,生成野火蔓延预测结果;5) 输出层:输出次日野火蔓延的概率图。此外,还使用了自定义的预处理技术,包括随机边距裁剪和高斯混合模型,以增强模型的泛化能力。

关键创新:该论文的关键创新在于将可训练的Hadamard变换和DCT层引入到U-Net中,从而实现了在变换域中的特征提取和融合。与传统的卷积神经网络相比,这种方法可以更有效地提取频率域特征,降低模型的参数量,并提高模型的计算效率。此外,自定义的预处理技术也增强了模型的鲁棒性和泛化能力。

关键设计:TD-FusionUNet的关键设计包括:1) 可训练的Hadamard变换和DCT层:这些层允许网络学习最优的变换矩阵,从而更好地提取频率域特征;2) 随机边距裁剪:通过随机裁剪输入图像的边距,可以增加数据的多样性,提高模型的泛化能力;3) 高斯混合模型:用于对火灾前掩码进行建模,从而更好地处理稀疏数据;4) 轻量级U-Net结构:通过减少卷积层的数量和通道数,降低模型的参数量和计算复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TD-FusionUNet在Next-Day Wildfire Spread数据集和WildfireSpreadTS数据集上进行了评估,结果表明,该模型以370k的参数实现了0.591的F1分数,优于WildfireSpreadTS数据集中报告的以ResNet18作为编码器的UNet基线,同时使用的参数明显更少。这表明TD-FusionUNet在保证预测精度的前提下,显著降低了模型的计算复杂度。

🎯 应用场景

该研究成果可应用于实时野火蔓延预测,为消防部门和应急管理机构提供决策支持。通过利用轻量级模型,可以在资源受限的环境中部署,例如在无人机或边缘计算设备上运行,从而实现快速、准确的野火蔓延预测,减少火灾造成的损失。

📄 摘要(原文)

We developed a lightweight and computationally efficient tool for next-day wildfire spread prediction using multimodal satellite data as input. The deep learning model, which we call Transform Domain Fusion UNet (TD-FusionUNet), incorporates trainable Hadamard Transform and Discrete Cosine Transform layers that apply two-dimensional transforms, enabling the network to capture essential "frequency" components in orthogonalized latent spaces. Additionally, we introduce custom preprocessing techniques, including random margin cropping and a Gaussian mixture model, to enrich the representation of the sparse pre-fire masks and enhance the model's generalization capability. The TD-FusionUNet is evaluated on two datasets which are the Next-Day Wildfire Spread dataset released by Google Research in 2023, and WildfireSpreadTS dataset. Our proposed TD-FusionUNet achieves an F1 score of 0.591 with 370k parameters, outperforming the UNet baseline using ResNet18 as the encoder reported in the WildfireSpreadTS dataset while using substantially fewer parameters. These results show that the proposed latent space fusion model balances accuracy and efficiency under a lightweight setting, making it suitable for real time wildfire prediction applications in resource limited environments.