DGFamba: Learning Flow Factorized State Space for Visual Domain Generalization

📄 arXiv: 2504.08019v1 📥 PDF

作者: Qi Bi, Jingjun Yi, Hao Zheng, Haolan Zhan, Wei Ji, Yawen Huang, Yuexiang Li

分类: cs.CV, cs.AI

发布日期: 2025-04-10

备注: accepted by AAAI2025


💡 一句话要点

提出DG-Famba,通过流分解状态空间学习领域泛化视觉表征

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 领域泛化 视觉表征学习 状态空间模型 流分解 领域不变性

📋 核心要点

  1. 领域泛化面临风格差异导致的领域鸿沟,现有方法难以有效提取领域不变特征。
  2. DG-Famba通过流分解对齐不同风格的状态嵌入,使模型关注内容而非风格。
  3. 实验表明,DG-Famba在多个领域泛化数据集上取得了SOTA性能,验证了其有效性。

📝 摘要(中文)

领域泛化旨在从源域学习一种表征,使其能够泛化到任意未见过的目标域。视觉领域泛化的一个根本挑战是由显著的风格变化引起的领域差距,而图像内容是稳定的。选择性状态空间,以VMamba为例,展示了其在表示内容方面的全局感受野。然而,很少有研究探索如何利用领域不变性来选择性地构建状态空间。在本文中,我们提出了一种新的流分解状态空间模型,称为DG-Famba,用于视觉领域泛化。为了保持领域一致性,我们创新性地通过流分解来映射风格增强的状态嵌入和原始状态嵌入。在这个潜在的流空间中,来自特定风格的每个状态嵌入都由一个潜在的概率路径指定。通过对齐潜在空间中的这些概率路径,状态嵌入能够表示相同的内容分布,而与风格差异无关。在各种视觉领域泛化设置下进行的大量实验表明了其最先进的性能。

🔬 方法详解

问题定义:领域泛化旨在解决模型在未见过的目标域上的泛化能力问题。现有方法在处理视觉领域泛化时,往往难以克服由风格差异引起的领域鸿沟,导致模型性能下降。这些方法通常无法有效地提取领域不变的特征表示,使得模型过度拟合源域的风格信息。

核心思路:DG-Famba的核心思路是通过流分解(Flow Factorization)将不同风格的状态嵌入映射到一个共享的潜在空间中,并对齐这些嵌入的概率路径。这样,模型就可以学习到与风格无关的内容表示,从而提高泛化能力。该方法旨在消除风格对内容表示的影响,使得模型能够关注图像的本质内容。

技术框架:DG-Famba基于选择性状态空间模型(如VMamba),并在此基础上引入了流分解模块。整体框架包括以下几个主要阶段:1) 输入图像经过特征提取器得到状态嵌入;2) 对状态嵌入进行风格增强,生成具有不同风格的状态嵌入;3) 使用流分解模块将原始状态嵌入和风格增强的状态嵌入映射到潜在空间;4) 在潜在空间中对齐这些嵌入的概率路径,学习领域不变的表示;5) 使用学习到的表示进行分类或其他下游任务。

关键创新:DG-Famba的关键创新在于引入了流分解来对齐不同风格的状态嵌入。通过流分解,模型可以将不同风格的状态嵌入映射到共享的潜在空间,并对齐这些嵌入的概率路径。这种方法能够有效地消除风格对内容表示的影响,使得模型能够学习到更加鲁棒的领域不变特征。与现有方法相比,DG-Famba能够更好地处理风格差异带来的挑战。

关键设计:DG-Famba的关键设计包括:1) 使用可逆神经网络(如Glow)作为流分解模块,以保证信息无损地映射到潜在空间;2) 设计合适的损失函数来对齐潜在空间中的概率路径,例如使用KL散度或最大均值差异(MMD);3) 调整状态空间模型的参数,以适应领域泛化的任务需求;4) 风格增强的方式,例如使用风格迁移网络或简单的颜色变换。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DG-Famba在多个领域泛化数据集(如PACS、Office-Home、DomainNet)上取得了SOTA性能。例如,在PACS数据集上,DG-Famba相比现有最佳方法提升了约2-3个百分点。实验结果表明,DG-Famba能够有效地学习领域不变的特征表示,并显著提高模型在未见过的目标域上的泛化能力。

🎯 应用场景

DG-Famba可应用于各种视觉领域泛化场景,例如:自动驾驶(适应不同天气和光照条件)、医学图像分析(适应不同医院和扫描仪)、遥感图像分类(适应不同传感器和地理区域)。该研究有助于提升模型在实际应用中的鲁棒性和泛化能力,降低对大量标注数据的依赖。

📄 摘要(原文)

Domain generalization aims to learn a representation from the source domain, which can be generalized to arbitrary unseen target domains. A fundamental challenge for visual domain generalization is the domain gap caused by the dramatic style variation whereas the image content is stable. The realm of selective state space, exemplified by VMamba, demonstrates its global receptive field in representing the content. However, the way exploiting the domain-invariant property for selective state space is rarely explored. In this paper, we propose a novel Flow Factorized State Space model, dubbed as DG-Famba, for visual domain generalization. To maintain domain consistency, we innovatively map the style-augmented and the original state embeddings by flow factorization. In this latent flow space, each state embedding from a certain style is specified by a latent probability path. By aligning these probability paths in the latent space, the state embeddings are able to represent the same content distribution regardless of the style differences. Extensive experiments conducted on various visual domain generalization settings show its state-of-the-art performance.