Technical Report for ICRA 2025 GOOSE 2D Semantic Segmentation Challenge: Leveraging Color Shift Correction, RoPE-Swin Backbone, and Quantile-based Label Denoising Strategy for Robust Outdoor Scene Understanding

作者: Chih-Chung Hsu, I-Hsuan Wu, Wen-Hai Tseng, Ching-Heng Cheng, Ming-Hsuan Wu, Jin-Hui Jiang, Yu-Jou Hsiao

分类: cs.CV

发布日期: 2025-05-11

💡 一句话要点

针对户外场景语义分割，提出颜色校正、RoPE-Swin和分位数去噪的稳健框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 语义分割 户外场景理解 颜色校正 Swin Transformer 旋转位置编码 分位数去噪 鲁棒性 自动驾驶

📋 核心要点

现有语义分割方法在光照变化剧烈的户外场景中表现欠佳，鲁棒性不足，难以满足实际应用需求。
论文提出颜色偏移校正模块、RoPE-Swin骨干网络和分位数去噪策略，提升模型在复杂光照条件下的分割性能。
实验结果表明，该方法在GOOSE数据集上取得了0.848的mIoU，验证了其在户外场景语义分割中的有效性。

📝 摘要（中文）

本报告介绍了ACVLAB团队为ICRA 2025 GOOSE 2D语义分割挑战赛开发的语义分割框架。该框架专注于将户外场景解析为九个语义类别。我们的方法整合了增强旋转位置嵌入(RoPE)的Swin Transformer骨干网络，以提高空间泛化能力，以及颜色偏移估计与校正模块，旨在补偿自然环境中的光照不一致性。为了进一步提高训练稳定性，我们采用了一种基于分位数的去噪策略，该策略降低了误差最高的2.5%像素的权重，将其视为噪声并抑制其在优化过程中的影响。在官方GOOSE测试集上评估，我们的方法实现了0.848的平均交并比(mIoU)，证明了颜色校正、位置编码和误差感知去噪相结合在稳健语义分割中的有效性。

🔬 方法详解

问题定义：现有的语义分割方法在真实户外场景中，由于光照条件变化剧烈，导致颜色偏移，严重影响分割精度和鲁棒性。尤其是在自动驾驶等应用中，对环境感知的准确性要求极高，因此需要一种能够适应光照变化的语义分割方法。

核心思路：论文的核心思路是通过颜色偏移估计与校正模块来消除光照变化带来的影响，同时利用RoPE-Swin骨干网络增强模型的空间泛化能力，并采用分位数去噪策略抑制训练过程中的噪声像素，从而提高模型的整体鲁棒性和分割精度。

技术框架：整体框架包含三个主要模块：1) 颜色偏移估计与校正模块，用于预处理输入图像，消除颜色偏差；2) RoPE-Swin Transformer骨干网络，用于提取图像的深层特征；3) 分位数去噪策略，在训练过程中降低高误差像素的权重，减少噪声的影响。最终，通过分割头将提取的特征映射到像素级别的语义类别。

关键创新：该方法最重要的创新点在于结合了颜色校正、位置编码和误差感知去噪三种策略。颜色校正模块能够有效应对光照变化，RoPE-Swin骨干网络提升了空间建模能力，而分位数去噪策略则增强了训练的稳定性。与传统方法相比，该方法在复杂光照条件下表现出更强的鲁棒性。

关键设计：颜色偏移估计与校正模块的具体实现细节未知，但其目标是估计并消除图像中的颜色偏差。RoPE-Swin骨干网络采用Swin Transformer的结构，并引入旋转位置编码(RoPE)来增强位置信息的表达能力。分位数去噪策略通过计算每个像素的损失，并根据损失值的分位数（例如，去除损失最高的2.5%的像素）来调整像素的权重。损失函数的具体形式未知，但其目标是最小化预测结果与真实标签之间的差异。

🖼️ 关键图片

📊 实验亮点

该方法在ICRA 2025 GOOSE 2D语义分割挑战赛的官方测试集上取得了0.848的mIoU，验证了其有效性。通过结合颜色校正、RoPE-Swin骨干网络和分位数去噪策略，该方法在户外场景语义分割任务中表现出优异的性能，显著提升了模型的鲁棒性和分割精度。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、智能监控等领域。通过提高户外场景的语义分割精度，可以提升自动驾驶系统的环境感知能力，增强机器人导航的可靠性，并改善智能监控系统的目标识别效果。该技术还有助于开发更智能、更安全的户外应用。

📄 摘要（原文）

This report presents our semantic segmentation framework developed by team ACVLAB for the ICRA 2025 GOOSE 2D Semantic Segmentation Challenge, which focuses on parsing outdoor scenes into nine semantic categories under real-world conditions. Our method integrates a Swin Transformer backbone enhanced with Rotary Position Embedding (RoPE) for improved spatial generalization, alongside a Color Shift Estimation-and-Correction module designed to compensate for illumination inconsistencies in natural environments. To further improve training stability, we adopt a quantile-based denoising strategy that downweights the top 2.5\% of highest-error pixels, treating them as noise and suppressing their influence during optimization. Evaluated on the official GOOSE test set, our approach achieved a mean Intersection over Union (mIoU) of 0.848, demonstrating the effectiveness of combining color correction, positional encoding, and error-aware denoising in robust semantic segmentation.

Technical Report for ICRA 2025 GOOSE 2D Semantic Segmentation Challenge: Leveraging Color Shift Correction, RoPE-Swin Backbone, and Quantile-based Label Denoising Strategy for Robust Outdoor Scene Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理