SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation

📄 arXiv: 2504.19839v1 📥 PDF

作者: Yulong Guo, Zilun Zhang, Yongheng Shang, Tiancheng Zhao, Shuiguang Deng, Yingchun Yang, Jianwei Yin

分类: cs.CV

发布日期: 2025-04-28

备注: None

DOI: 10.1109/TGRS.2025.3565600

🔗 代码/项目: GITHUB


💡 一句话要点

SRMF:针对长尾UHR卫星图像分割的数据增强与多模态融合方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超高分辨率图像分割 长尾问题 数据增强 多模态融合 语义分割 卫星图像处理

📋 核心要点

  1. 超高分辨率卫星图像语义分割面临长尾分布的挑战,现有方法侧重网络结构设计,忽略了长尾问题。
  2. SRMF框架通过多尺度裁剪、语义重排序重采样的数据增强以及多模态融合来缓解长尾问题,提升模型性能。
  3. 在URUR、GID和FBP数据集上,SRMF分别将mIoU提高了3.33%、0.66%和0.98%,达到SOTA水平。

📝 摘要(中文)

本文提出了一种名为SRMF的框架,用于解决超高分辨率(UHR)卫星图像语义分割中的长尾问题。现有方法侧重于多分支网络结构,强调多尺度特征提取和融合,但往往忽略了长尾问题的重要性。与以往侧重于独立特征提取的UHR方法不同,本文强调数据增强和多模态特征融合来缓解长尾问题。SRMF通过结合多尺度裁剪技术和基于语义重排序与重采样的数据增强策略来解决长尾类别分布。此外,提出了一种基于多模态融合的通用表征知识注入方法,首次融合文本和视觉特征,无需单独的区域文本描述,从而提取更鲁棒的特征。在URUR、GID和FBP数据集上的大量实验表明,该方法分别将mIoU提高了3.33%、0.66%和0.98%,实现了最先进的性能。

🔬 方法详解

问题定义:超高分辨率(UHR)卫星图像的语义分割任务中,存在严重的长尾问题,即某些类别的样本数量远少于其他类别。现有方法主要集中在设计复杂的多分支网络结构,以提取多尺度特征并进行融合,但忽略了长尾分布对模型训练的影响,导致模型在少数类别上表现良好,而在多数类别上性能较差。

核心思路:论文的核心思路是通过数据增强和多模态特征融合来缓解长尾问题。数据增强旨在增加尾部类别的样本数量,平衡类别分布;多模态特征融合则利用文本信息来增强视觉特征的表达能力,从而提高模型对尾部类别的识别能力。这种思路强调从数据层面和特征层面同时解决长尾问题,而不是仅仅依赖于复杂的网络结构。

技术框架:SRMF框架主要包含两个关键模块:数据增强模块和多模态融合模块。数据增强模块采用多尺度裁剪和基于语义重排序与重采样的数据增强策略,增加尾部类别的样本数量。多模态融合模块则将文本和视觉特征进行融合,利用文本信息来增强视觉特征的表达能力。整体流程是:首先对输入图像进行数据增强,然后将增强后的图像输入到视觉特征提取网络中,同时利用文本编码器提取文本特征,最后将视觉特征和文本特征进行融合,并输入到分割头中进行像素级别的分类。

关键创新:该论文的关键创新在于:1) 提出了一种基于语义重排序和重采样的数据增强策略,能够有效地增加尾部类别的样本数量,平衡类别分布。2) 提出了一种多模态融合方法,首次将文本和视觉特征融合用于UHR卫星图像的语义分割,无需单独的区域文本描述,从而提取更鲁棒的特征。这种多模态融合方法能够有效地利用文本信息来增强视觉特征的表达能力,提高模型对尾部类别的识别能力。

关键设计:在数据增强方面,采用了多尺度裁剪策略,将原始图像裁剪成多个不同尺度的子图像,从而增加样本的多样性。在语义重排序和重采样方面,根据类别的样本数量对像素进行重排序,然后对尾部类别的像素进行重采样,从而增加尾部类别的样本数量。在多模态融合方面,使用了Transformer结构来融合文本和视觉特征,并设计了一个自适应的融合权重,根据不同类别的特征重要性来调整融合权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SRMF在URUR、GID和FBP三个数据集上进行了广泛的实验,结果表明,SRMF显著优于现有的语义分割方法。具体而言,在URUR数据集上,SRMF的mIoU提高了3.33%;在GID数据集上,mIoU提高了0.66%;在FBP数据集上,mIoU提高了0.98%。这些结果表明,SRMF能够有效地解决长尾问题,提高UHR卫星图像语义分割的精度。

🎯 应用场景

该研究成果可应用于智慧城市建设、农业监测、灾害评估等领域。通过提升超高分辨率卫星图像语义分割的精度,可以更准确地识别地物类型,为城市规划、农作物估产、灾情评估等提供更可靠的数据支持。未来,该方法有望推广到其他遥感图像处理任务中,例如目标检测、变化检测等。

📄 摘要(原文)

The long-tail problem presents a significant challenge to the advancement of semantic segmentation in ultra-high-resolution (UHR) satellite imagery. While previous efforts in UHR semantic segmentation have largely focused on multi-branch network architectures that emphasize multi-scale feature extraction and fusion, they have often overlooked the importance of addressing the long-tail issue. In contrast to prior UHR methods that focused on independent feature extraction, we emphasize data augmentation and multimodal feature fusion to alleviate the long-tail problem. In this paper, we introduce SRMF, a novel framework for semantic segmentation in UHR satellite imagery. Our approach addresses the long-tail class distribution by incorporating a multi-scale cropping technique alongside a data augmentation strategy based on semantic reordering and resampling. To further enhance model performance, we propose a multimodal fusion-based general representation knowledge injection method, which, for the first time, fuses text and visual features without the need for individual region text descriptions, extracting more robust features. Extensive experiments on the URUR, GID, and FBP datasets demonstrate that our method improves mIoU by 3.33\%, 0.66\%, and 0.98\%, respectively, achieving state-of-the-art performance. Code is available at: https://github.com/BinSpa/SRMF.git.