TRUST: Test-Time Refinement using Uncertainty-Guided SSM Traverses

📄 arXiv: 2509.22813v1 📥 PDF

作者: Sahar Dastani, Ali Bahri, Gustavo Adolfo Vargas Hakim, Moslem Yazdanpanah, Mehrdad Noori, David Osowiechi, Samuel Barbeau, Ismail Ben Ayed, Herve Lombaert, Christian Desrosiers

分类: cs.CV

发布日期: 2025-09-26


💡 一句话要点

提出TRUST,利用不确定性引导的SSM遍历进行测试时优化,提升模型在分布偏移下的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 测试时自适应 状态空间模型 分布偏移 鲁棒性 视觉Mamba 不确定性估计 伪标签学习

📋 核心要点

  1. Vision Mamba等SSM模型在视觉任务中表现出色,但在分布偏移下泛化能力显著下降,亟需有效的自适应方法。
  2. TRUST方法通过生成多个因果视角的图像遍历,并利用模型预测作为伪标签来更新Mamba参数,实现测试时自适应。
  3. 实验结果表明,TRUST在多个基准测试中均优于现有TTA方法,有效提升了模型在分布偏移下的鲁棒性。

📝 摘要(中文)

本文提出了一种新颖的测试时自适应(TTA)方法,名为TRUST (Test-Time Refinement using Uncertainty-Guided SSM Traverses),旨在解决State Space Models (SSMs)在分布偏移下泛化性能显著下降的问题。TRUST利用多样化的遍历排列生成输入图像的多个因果视角。模型预测作为伪标签,用于指导Mamba特定参数的更新,并且对自适应后的权重进行平均,以整合跨遍历扫描学习到的信息。TRUST是第一个显式利用SSM独特架构属性进行自适应的方法。在七个基准测试上的实验表明,TRUST能够持续提高鲁棒性,并且优于现有的TTA方法。

🔬 方法详解

问题定义:论文旨在解决视觉State Space Models (SSMs),特别是VMamba,在面对测试数据分布与训练数据分布存在差异(即分布偏移)时,泛化性能显著下降的问题。现有的测试时自适应方法未能充分利用SSM架构的特性,导致自适应效果不佳。

核心思路:TRUST的核心思路是利用SSM的序列建模特性,通过不同的遍历顺序(traversal permutations)生成输入图像的多个“因果视角”。这些不同的视角可以提供关于图像的不同信息,从而提高模型对分布偏移的鲁棒性。同时,利用模型自身的预测作为伪标签,指导模型参数的更新,实现自适应。

技术框架:TRUST方法主要包含以下几个阶段:1) 遍历生成:对输入图像进行多种不同的遍历扫描,生成多个序列化的图像表示。2) 伪标签生成:使用模型对每个遍历扫描的图像进行预测,生成伪标签。3) 参数更新:利用生成的伪标签,更新Mamba模型中特定的参数。4) 权重平均:对不同遍历扫描得到的自适应权重进行平均,整合学习到的信息。

关键创新:TRUST最重要的创新在于显式地利用了SSM架构的特性进行测试时自适应。通过生成多个因果视角的图像遍历,并利用模型自身的预测作为伪标签,实现了对Mamba模型参数的有效更新。这是与现有TTA方法最本质的区别,现有方法通常是针对CNN或Transformer设计的,没有考虑到SSM的序列建模特性。

关键设计:TRUST的关键设计包括:1) 遍历策略:选择合适的遍历策略,以生成多样化的图像视角。论文中具体使用的遍历方式未知。2) 伪标签置信度加权:可能使用了不确定性估计来对伪标签进行加权,从而提高自适应的稳定性。3) Mamba特定参数更新:选择性地更新Mamba模型中的特定参数,以避免过度拟合。具体更新哪些参数未知。4) 权重平均策略:采用合适的权重平均策略,以整合不同遍历扫描学习到的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRUST在七个基准测试中均取得了优于现有TTA方法的结果,表明其在提升模型鲁棒性方面的有效性。具体的性能提升幅度未知,但摘要强调了其一致性和优越性。该方法是首个显式利用SSM架构特性进行自适应的TTA方法,具有重要的研究意义。

🎯 应用场景

TRUST方法可应用于各种需要模型在未知或变化环境中保持鲁棒性的视觉任务,例如自动驾驶、医疗图像分析、机器人导航等。通过在测试时进行自适应,可以显著提高模型在实际应用中的可靠性和准确性,减少因数据分布差异导致的性能下降。

📄 摘要(原文)

State Space Models (SSMs) have emerged as efficient alternatives to Vision Transformers (ViTs), with VMamba standing out as a pioneering architecture designed for vision tasks. However, their generalization performance degrades significantly under distribution shifts. To address this limitation, we propose TRUST (Test-Time Refinement using Uncertainty-Guided SSM Traverses), a novel test-time adaptation (TTA) method that leverages diverse traversal permutations to generate multiple causal perspectives of the input image. Model predictions serve as pseudo-labels to guide updates of the Mamba-specific parameters, and the adapted weights are averaged to integrate the learned information across traversal scans. Altogether, TRUST is the first approach that explicitly leverages the unique architectural properties of SSMs for adaptation. Experiments on seven benchmarks show that TRUST consistently improves robustness and outperforms existing TTA methods.