MoASE++: Mixture of Activation Sparsity Experts with Domain-Adaptive On-policy Distillation for Continual Test Time Adaptation
作者: Ronyu Zhang, Aosong Cheng, Gaole Dai, Yulin Luo, Jiaming Liu, Li Du, Huanrui Yang, Dan Wang, Leyuan Fang, Yuan Du, Shanghang Zhang
分类: cs.CV
发布日期: 2026-05-18
💡 一句话要点
提出MoASE++,通过混合激活稀疏专家和领域自适应策略蒸馏,解决持续测试时自适应问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 持续测试时自适应 混合专家模型 领域自适应 策略蒸馏 激活稀疏性 鲁棒性 可塑性
📋 核心要点
- 现有持续测试时自适应方法易受纹理偏差影响,导致误差累积和灾难性遗忘。
- MoASE++通过混合激活稀疏专家解耦领域无关结构和领域相关纹理,并使用领域自适应策略蒸馏稳定训练。
- 实验表明,MoASE++在分类和语义分割任务上均取得了SOTA性能,提升了模型在动态环境中的适应能力。
📝 摘要(中文)
持续测试时自适应旨在将源域预训练模型适应于非平稳、无标签的目标数据流,同时保持过去的性能。然而,过度依赖纹理信息的骨干网络容易导致误差累积和灾难性遗忘。受人类视觉系统中形状和纹理解耦过程的启发,我们引入MoASE,一个插件式的混合专家模型,它利用激活稀疏专家和空间可微Dropout将领域无关的结构信息与领域相关的纹理信息分离,形成互补的高激活和低激活路径,同时高秩和低秩瓶颈用于实现表征多样化。激活稀疏门产生输入自适应的SDD阈值,用于精确的token选择,领域感知路由器使用纹理敏感的线索来分配每个样本的专家权重。为了抑制无标签数据流上的确认偏差并稳定监督,我们引入了领域自适应的策略蒸馏,构成了MoASE++,它包含一个EMA锚定的策略反向KL散度蒸馏和一个基于熵和置信度的增强策略,该策略对齐相同视角下的预测并提高鲁棒性-可塑性平衡。在分类(CIFAR-10/100-C,ImageNet-C)和语义分割(Cityscapes->ACDC)上的大量实验表明,该方法始终具有最先进的性能,为动态视觉环境中的持续自适应提供了一种原则性的、可控的方法。
🔬 方法详解
问题定义:论文旨在解决持续测试时自适应(Continual Test-Time Adaptation, CTTA)问题,即如何使一个在源域上预训练的模型能够持续适应不断变化的、无标签的目标数据流,同时避免灾难性遗忘。现有方法,特别是那些依赖纹理信息的骨干网络,容易在适应过程中累积误差,并且难以保持对先前学习过的知识的记忆。
核心思路:论文的核心思路是模仿人类视觉系统对形状和纹理信息的解耦处理。通过设计一个混合专家模型(MoASE),将领域无关的结构信息和领域相关的纹理信息分离,从而提高模型对不同领域数据的泛化能力。同时,利用领域自适应的策略蒸馏(Domain-Adaptive On-Policy Distillation)来稳定训练过程,抑制确认偏差,并平衡模型的鲁棒性和可塑性。
技术框架:MoASE++的整体框架包含以下几个主要模块:1) 激活稀疏专家(Activation Sparsity Experts):用于分离结构和纹理信息,形成高激活和低激活路径。2) 激活稀疏门(Activation Sparsity Gate):生成输入自适应的阈值,用于精确的token选择。3) 领域感知路由器(Domain-Aware Router):根据纹理敏感的线索,为每个样本分配专家权重。4) 领域自适应策略蒸馏:包含EMA锚定的策略反向KL散度蒸馏和基于熵和置信度的增强策略。
关键创新:论文的关键创新在于:1) 提出了一种混合专家模型,能够有效地解耦领域无关的结构信息和领域相关的纹理信息。2) 设计了一种领域自适应的策略蒸馏方法,能够稳定训练过程,抑制确认偏差,并平衡模型的鲁棒性和可塑性。3) 激活稀疏门和领域感知路由器的设计,使得模型能够根据输入自适应地选择合适的专家,从而提高模型的泛化能力。
关键设计:激活稀疏专家使用空间可微Dropout(Spatial Differentiable Dropout, SDD)来控制激活的稀疏性。激活稀疏门使用sigmoid函数来生成输入自适应的SDD阈值。领域感知路由器使用一个小型神经网络来预测每个样本的专家权重。领域自适应策略蒸馏使用EMA模型作为教师模型,并使用反向KL散度作为蒸馏损失函数。增强策略根据熵和置信度来选择合适的增强方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MoASE++在CIFAR-10/100-C和ImageNet-C等分类任务以及Cityscapes->ACDC语义分割任务上均取得了state-of-the-art的性能。例如,在Cityscapes->ACDC任务上,MoASE++相比于之前的最佳方法,性能提升了显著的百分比,证明了其在持续测试时自适应方面的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、医疗影像分析等领域,这些领域的数据分布会随着时间或环境的变化而发生改变。MoASE++能够使模型在这些动态环境中持续学习和适应,提高模型的鲁棒性和泛化能力,从而提升系统的整体性能和可靠性。
📄 摘要(原文)
Continual test-time adaptation adapts a source-pretrained model to non-stationary, unlabeled target streams while retaining past competence, yet texture-biased backbones risk error accumulation and catastrophic forgetting. Drawing inspiration from the process of decoupling shape and texture in the human visual system, we introduce MoASE, a plug-in mixture-of-experts that disentangles domain-agnostic structure from domain-specific texture using Activation Sparsity Experts with Spatial Differentiable Dropout, forming complementary high- and low-activation pathways, while high- and low-rank bottlenecks diversify representations. The Activation Sparsity Gate produces input-adaptive SDD thresholds for precise token selection, and the Domain-Aware Router assigns per-sample expert weights using texture-sensitive cues. To curb confirmation bias on unlabeled streams and stabilize supervision, we then introduce Domain-Adaptive On-Policy Distillation to constitute MoASE++, with an EMA-anchored on-policy reverse KL distillation and an augmentation policy conditioned on entropy and confidence that aligns predictions across the same views and improves the robustness-plasticity balance. Extensive experiments on classification (CIFAR-10/100-C, ImageNet-C) and semantic segmentation (Cityscapes->ACDC) demonstrate consistent state-of-the-art performance, offering a principled, controllable approach to continual adaptation in dynamic visual environments.