MoASE++: Mixture of Activation Sparsity Experts with Domain-Adaptive On-policy Distillation for Continual Test Time Adaptation

作者: Ronyu Zhang, Aosong Cheng, Gaole Dai, Yulin Luo, Jiaming Liu, Li Du, Huanrui Yang, Dan Wang, Leyuan Fang, Yuan Du, Shanghang Zhang

分类: cs.CV

发布日期: 2026-05-18

💡 一句话要点

提出MoASE++，通过混合激活稀疏专家和领域自适应策略蒸馏，解决持续测试时自适应问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 持续测试时自适应 混合专家模型 领域自适应 策略蒸馏 激活稀疏性 鲁棒性 可塑性

📋 核心要点

现有持续测试时自适应方法易受纹理偏差影响，导致误差累积和灾难性遗忘。
MoASE++通过混合激活稀疏专家解耦领域无关结构和领域相关纹理，并使用领域自适应策略蒸馏稳定训练。
实验表明，MoASE++在分类和语义分割任务上均取得了SOTA性能，提升了模型在动态环境中的适应能力。

📝 摘要（中文）

持续测试时自适应旨在将源域预训练模型适应于非平稳、无标签的目标数据流，同时保持过去的性能。然而，过度依赖纹理信息的骨干网络容易导致误差累积和灾难性遗忘。受人类视觉系统中形状和纹理解耦过程的启发，我们引入MoASE，一个插件式的混合专家模型，它利用激活稀疏专家和空间可微Dropout将领域无关的结构信息与领域相关的纹理信息分离，形成互补的高激活和低激活路径，同时高秩和低秩瓶颈用于实现表征多样化。激活稀疏门产生输入自适应的SDD阈值，用于精确的token选择，领域感知路由器使用纹理敏感的线索来分配每个样本的专家权重。为了抑制无标签数据流上的确认偏差并稳定监督，我们引入了领域自适应的策略蒸馏，构成了MoASE++，它包含一个EMA锚定的策略反向KL散度蒸馏和一个基于熵和置信度的增强策略，该策略对齐相同视角下的预测并提高鲁棒性-可塑性平衡。在分类（CIFAR-10/100-C，ImageNet-C）和语义分割（Cityscapes->ACDC）上的大量实验表明，该方法始终具有最先进的性能，为动态视觉环境中的持续自适应提供了一种原则性的、可控的方法。

🔬 方法详解

问题定义：论文旨在解决持续测试时自适应（Continual Test-Time Adaptation, CTTA）问题，即如何使一个在源域上预训练的模型能够持续适应不断变化的、无标签的目标数据流，同时避免灾难性遗忘。现有方法，特别是那些依赖纹理信息的骨干网络，容易在适应过程中累积误差，并且难以保持对先前学习过的知识的记忆。

核心思路：论文的核心思路是模仿人类视觉系统对形状和纹理信息的解耦处理。通过设计一个混合专家模型（MoASE），将领域无关的结构信息和领域相关的纹理信息分离，从而提高模型对不同领域数据的泛化能力。同时，利用领域自适应的策略蒸馏（Domain-Adaptive On-Policy Distillation）来稳定训练过程，抑制确认偏差，并平衡模型的鲁棒性和可塑性。

技术框架：MoASE++的整体框架包含以下几个主要模块：1) 激活稀疏专家（Activation Sparsity Experts）：用于分离结构和纹理信息，形成高激活和低激活路径。2) 激活稀疏门（Activation Sparsity Gate）：生成输入自适应的阈值，用于精确的token选择。3) 领域感知路由器（Domain-Aware Router）：根据纹理敏感的线索，为每个样本分配专家权重。4) 领域自适应策略蒸馏：包含EMA锚定的策略反向KL散度蒸馏和基于熵和置信度的增强策略。

关键创新：论文的关键创新在于：1) 提出了一种混合专家模型，能够有效地解耦领域无关的结构信息和领域相关的纹理信息。2) 设计了一种领域自适应的策略蒸馏方法，能够稳定训练过程，抑制确认偏差，并平衡模型的鲁棒性和可塑性。3) 激活稀疏门和领域感知路由器的设计，使得模型能够根据输入自适应地选择合适的专家，从而提高模型的泛化能力。

关键设计：激活稀疏专家使用空间可微Dropout（Spatial Differentiable Dropout, SDD）来控制激活的稀疏性。激活稀疏门使用sigmoid函数来生成输入自适应的SDD阈值。领域感知路由器使用一个小型神经网络来预测每个样本的专家权重。领域自适应策略蒸馏使用EMA模型作为教师模型，并使用反向KL散度作为蒸馏损失函数。增强策略根据熵和置信度来选择合适的增强方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MoASE++在CIFAR-10/100-C和ImageNet-C等分类任务以及Cityscapes->ACDC语义分割任务上均取得了state-of-the-art的性能。例如，在Cityscapes->ACDC任务上，MoASE++相比于之前的最佳方法，性能提升了显著的百分比，证明了其在持续测试时自适应方面的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、医疗影像分析等领域，这些领域的数据分布会随着时间或环境的变化而发生改变。MoASE++能够使模型在这些动态环境中持续学习和适应，提高模型的鲁棒性和泛化能力，从而提升系统的整体性能和可靠性。

📄 摘要（原文）

Continual test-time adaptation adapts a source-pretrained model to non-stationary, unlabeled target streams while retaining past competence, yet texture-biased backbones risk error accumulation and catastrophic forgetting. Drawing inspiration from the process of decoupling shape and texture in the human visual system, we introduce MoASE, a plug-in mixture-of-experts that disentangles domain-agnostic structure from domain-specific texture using Activation Sparsity Experts with Spatial Differentiable Dropout, forming complementary high- and low-activation pathways, while high- and low-rank bottlenecks diversify representations. The Activation Sparsity Gate produces input-adaptive SDD thresholds for precise token selection, and the Domain-Aware Router assigns per-sample expert weights using texture-sensitive cues. To curb confirmation bias on unlabeled streams and stabilize supervision, we then introduce Domain-Adaptive On-Policy Distillation to constitute MoASE++, with an EMA-anchored on-policy reverse KL distillation and an augmentation policy conditioned on entropy and confidence that aligns predictions across the same views and improves the robustness-plasticity balance. Extensive experiments on classification (CIFAR-10/100-C, ImageNet-C) and semantic segmentation (Cityscapes->ACDC) demonstrate consistent state-of-the-art performance, offering a principled, controllable approach to continual adaptation in dynamic visual environments.

MoASE++: Mixture of Activation Sparsity Experts with Domain-Adaptive On-policy Distillation for Continual Test Time Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理