Heuristic Self-Paced Learning for Domain Adaptive Semantic Segmentation under Adverse Conditions

📄 arXiv: 2603.24322v1 📥 PDF

作者: Shiqin Wang, Haoyang Chen, Huaizhou Huang, Yinkan He, Dongfang Sun, Xiaoqing Chen, Xingyu Liu, Zheng Wang, Kaiyan Zhao

分类: cs.CV

发布日期: 2026-03-25

备注: Accepted by CVPR 2026


💡 一句话要点

提出启发式自步学习框架,解决恶劣环境下域自适应语义分割的类别偏置问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 域自适应 语义分割 课程学习 强化学习 恶劣天气 类别偏置 自主调度

📋 核心要点

  1. 现有域自适应语义分割方法在恶劣天气下表现不佳,主要原因是类别学习顺序的静态性和启发式规则的局限性。
  2. 论文提出一种基于强化学习的自主类别调度器,通过动态调整类别学习顺序,自适应地关注信息量大的类别。
  3. 实验表明,该方法在多个恶劣天气数据集上取得了SOTA性能,并在合成数据到真实数据的迁移中表现出良好的泛化能力。

📝 摘要(中文)

本文针对恶劣天气条件下的域自适应语义分割问题,提出了一种启发式自步学习方法。现有方法依赖于手工设计的启发式规则(例如,固定的不确定性度量)和静态的学习策略,无法适应模型不断演变的高维训练动态,导致类别偏置。受强化学习的启发,我们将课程学习建模为一个序列决策问题,并提出了一个自主类别调度器。该调度器包含两个组件:(i)一个高维状态编码器,将模型的训练状态映射到潜在空间,并提取指示进度的关键特征;(ii)一个类别公平的策略梯度目标,确保跨类别的均衡改进。结合混合源-目标监督,学习到的类别排序引导网络在每个阶段关注信息量最大的类别,从而实现更具适应性和动态性的学习。该方法在三个广泛使用的基准数据集(如ACDC、Dark Zurich和Nighttime Driving)上实现了最先进的性能,并展示了在合成到真实语义分割中的泛化能力。

🔬 方法详解

问题定义:现有的无监督域自适应语义分割方法,尤其是在恶劣天气条件下,面临着类别偏置问题。这些方法通常依赖于手工设计的启发式规则(如固定的不确定性度量)和静态的学习策略,无法适应模型在训练过程中不断变化的状态,导致某些类别学习效果不佳,而另一些类别则过拟合。

核心思路:论文的核心思路是将课程学习视为一个序列决策问题,并利用强化学习来自动学习一个类别调度器。该调度器能够根据模型的训练状态,动态地调整类别学习的顺序,从而使模型能够自适应地关注信息量最大的类别,避免类别偏置。

技术框架:该方法的技术框架主要包含以下几个模块:1) 高维状态编码器:用于将模型的训练状态(例如,每个类别的损失、置信度等)映射到一个低维的潜在空间,提取指示训练进度的关键特征。2) 类别调度器:基于强化学习,根据状态编码器的输出,选择下一个要重点学习的类别。3) 混合源-目标监督:利用源域的标注数据和目标域的伪标签数据,对模型进行训练。4) 类别公平的策略梯度目标:用于训练类别调度器,确保跨类别的均衡改进。

关键创新:该方法最重要的技术创新点在于提出了一个自主类别调度器,能够根据模型的训练状态,动态地调整类别学习的顺序。与现有的基于手工启发式规则的方法相比,该方法能够更好地适应模型的训练动态,避免类别偏置。

关键设计:在状态编码器方面,使用了多层感知机(MLP)来提取特征。在类别调度器方面,使用了策略梯度算法(如REINFORCE)进行训练。在损失函数方面,使用了交叉熵损失函数和一致性损失函数。在网络结构方面,可以使用现有的语义分割网络(如DeepLabv3+)作为骨干网络。

📊 实验亮点

该方法在ACDC、Dark Zurich和Nighttime Driving等三个广泛使用的恶劣天气数据集上取得了state-of-the-art的性能。例如,在ACDC数据集上,该方法相比于之前的最佳方法,mIoU指标提升了超过2个百分点,证明了其在恶劣天气条件下的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通、机器人等领域,尤其是在恶劣天气条件下的场景感知。通过提高语义分割的准确性和鲁棒性,可以提升自动驾驶系统的安全性,改善机器人在复杂环境中的导航能力,并为其他视觉任务提供更可靠的基础。

📄 摘要(原文)

The learning order of semantic classes significantly impacts unsupervised domain adaptation for semantic segmentation, especially under adverse weather conditions. Most existing curricula rely on handcrafted heuristics (e.g., fixed uncertainty metrics) and follow a static schedule, which fails to adapt to a model's evolving, high-dimensional training dynamics, leading to category bias. Inspired by Reinforcement Learning, we cast curriculum learning as a sequential decision problem and propose an autonomous class scheduler. This scheduler consists of two components: (i) a high-dimensional state encoder that maps the model's training status into a latent space and distills key features indicative of progress, and (ii) a category-fair policy-gradient objective that ensures balanced improvement across classes. Coupled with mixed source-target supervision, the learned class rankings direct the network's focus to the most informative classes at each stage, enabling more adaptive and dynamic learning. It is worth noting that our method achieves state-of-the-art performance on three widely used benchmarks (e.g., ACDC, Dark Zurich, and Nighttime Driving) and shows generalization ability in synthetic-to-real semantic segmentation.