From Pixels to Images: Deep Learning Advances in Remote Sensing Image Semantic Segmentation

作者: Quanwei Liu, Tao Huang, Yanni Dong, Jiaqi Yang, Wei Xiang

分类: cs.CV

发布日期: 2025-05-21

备注: 38 pages, 14 figures, 10 tables

💡 一句话要点

综述深度学习在遥感图像语义分割中的应用与进展

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感图像语义分割 深度学习 特征提取 图像解译 遥感应用

📋 核心要点

传统遥感图像处理方法难以应对日益增长的数据量和多样性，在效率和精度上存在瓶颈。
深度学习通过自动化特征提取和学习，显著提升了遥感图像语义分割的精度和效率。
论文对深度学习在遥感图像语义分割中的应用进行了系统回顾和评估，并指出了未来研究方向。

📝 摘要（中文）

遥感图像（RSIs）记录了地球表面自然和人为的变化，是环境监测、城市规划和资源管理的重要数据来源。遥感图像语义分割（RSISS）能够对地表特征进行精细的解译，是遥感分析中的关键任务。随着各种平台传感器采集的遥感图像日益多样化和海量化，传统的处理方法难以保持效率和精度。深度学习（DL）作为一种变革性方法应运而生，通过自动化特征提取和提高各种模态的分割精度，在遥感图像语义分割（RSISS）方面取得了显著进展。本文回顾了基于深度学习的RSISS的演变，将其分为四个阶段：早期的基于像素的方法、流行的基于patch和tile的技术，以及由基础模型支持的新兴的基于图像的策略。我们从特征提取和学习策略的角度分析了这些发展，揭示了该领域从像素级到tile级以及从单模态到多模态分割的演进。此外，我们还在统一的数据集上对近40种先进技术进行了全面评估，以定量地描述它们的性能和适用性。本综述全面地展示了基于深度学习的遥感语义分割，突出了关键进展、比较性见解和开放性挑战，以指导未来的研究。

🔬 方法详解

问题定义：遥感图像语义分割旨在对遥感图像中的每个像素进行分类，从而实现对地表覆盖类型的精细化理解。传统方法依赖手工设计的特征，泛化能力差，且难以处理高分辨率和复杂场景的遥感图像。深度学习方法虽然取得了显著进展，但仍面临着数据量不足、类别不平衡、以及不同模态数据融合等挑战。

核心思路：本文的核心思路是对现有基于深度学习的遥感图像语义分割方法进行系统性的分类和总结，从特征提取和学习策略的角度分析其演进过程，并进行定量评估。通过梳理不同阶段的方法，揭示其优缺点，为未来的研究提供指导。

技术框架：论文将深度学习在遥感图像语义分割中的应用分为四个阶段：1) 基于像素的方法；2) 基于patch的方法；3) 基于tile的方法；4) 基于图像的方法。每个阶段的方法都从特征提取和学习策略两个方面进行分析。此外，论文还构建了一个统一的数据集，用于评估不同方法的性能。

关键创新：该综述的关键创新在于对现有方法进行了系统性的分类和评估，并从特征提取和学习策略的角度分析了其演进过程。通过对比不同阶段的方法，揭示了其优缺点，为未来的研究提供了有价值的参考。此外，论文还构建了一个统一的数据集，方便研究者进行公平的比较。

关键设计：论文的关键设计包括：1) 详细描述了每个阶段的代表性方法，包括其网络结构、损失函数和训练策略；2) 对近40种先进技术进行了全面评估，并给出了定量结果；3) 从特征提取和学习策略的角度分析了不同方法的优缺点；4) 讨论了当前研究面临的挑战和未来的研究方向。

🖼️ 关键图片

📊 实验亮点

论文在统一数据集上对近40种深度学习方法进行了全面评估，提供了详细的性能对比数据。评估结果揭示了不同方法的优缺点，并为研究者选择合适的算法提供了参考。例如，基于图像的方法在处理大规模遥感图像时表现出更高的效率，而基于patch的方法在细节分割方面更具优势。这些实验结果为未来的研究方向提供了重要的启示。

🎯 应用场景

该研究成果可广泛应用于环境监测、城市规划、资源管理、灾害评估等领域。通过精确的遥感图像语义分割，可以为相关决策提供有力支持，例如，监测森林覆盖变化、评估城市扩张速度、识别土地利用类型等。未来的研究将进一步推动遥感图像智能解译技术的发展，为可持续发展提供更可靠的数据保障。

📄 摘要（原文）

Remote sensing images (RSIs) capture both natural and human-induced changes on the Earth's surface, serving as essential data for environmental monitoring, urban planning, and resource management. Semantic segmentation (SS) of RSIs enables the fine-grained interpretation of surface features, making it a critical task in remote sensing analysis. With the increasing diversity and volume of RSIs collected by sensors on various platforms, traditional processing methods struggle to maintain efficiency and accuracy. In response, deep learning (DL) has emerged as a transformative approach, enabling substantial advances in remote sensing image semantic segmentation (RSISS) by automating feature extraction and improving segmentation accuracy across diverse modalities. This paper revisits the evolution of DL-based RSISS by categorizing existing approaches into four stages: the early pixel-based methods, the prevailing patch-based and tile-based techniques, and the emerging image-based strategies enabled by foundation models. We analyze these developments from the perspective of feature extraction and learning strategies, revealing the field's progression from pixel-level to tile-level and from unimodal to multimodal segmentation. Furthermore, we conduct a comprehensive evaluation of nearly 40 advanced techniques on a unified dataset to quantitatively characterize their performance and applicability. This review offers a holistic view of DL-based SS for RS, highlighting key advancements, comparative insights, and open challenges to guide future research.

From Pixels to Images: Deep Learning Advances in Remote Sensing Image Semantic Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理