Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation
作者: Jingjun Yi, Qi Bi, Hao Zheng, Haolan Zhan, Wei Ji, Yawen Huang, Yuexiang Li, Yefeng Zheng
分类: cs.CV
发布日期: 2024-07-26 (更新: 2024-07-29)
备注: accecpted by ACM MM2024
💡 一句话要点
提出频谱分解Token学习框架,提升领域泛化语义分割性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 领域泛化 语义分割 视觉基础模型 频谱分解 Token学习
📋 核心要点
- 领域泛化语义分割任务中,跨域图像风格差异大,现有方法难以提取风格不变特征。
- 提出频谱分解Token学习框架,将VFM特征分解为内容和风格信息,分别处理并学习风格不变特征。
- 通过注意力优化方法,弥合风格影响的表示和静态token之间的差距,实现跨域性能提升。
📝 摘要(中文)
视觉基础模型(VFM)的快速发展为各种下游任务带来了固有的域外泛化能力。其中,领域泛化语义分割(DGSS)面临独特的挑战,因为跨域图像共享共同的像素级内容信息,但在风格方面差异很大。本文提出了一种新的频谱分解Token(SET)学习框架来推进这一领域。与现有的微调token和冻结骨干网络的范式不同,所提出的SET特别关注于从这些可学习的token中学习风格不变特征的方式。具体而言,首先将冻结的VFM特征在频域中分解为相位和幅度分量,分别主要包含内容和风格的信息,然后由可学习的token分别处理,以提取特定于任务的信息。分解后,风格变化主要影响幅度分支中基于token的特征增强。为了解决这个问题,我们进一步开发了一种注意力优化方法,以弥合推理过程中受风格影响的表示和静态token之间的差距。大量的跨域实验表明了其最先进的性能。
🔬 方法详解
问题定义:领域泛化语义分割(DGSS)旨在训练一个模型,使其在未见过的目标域上也能表现良好。现有的方法通常采用微调token和冻结骨干网络的范式,但难以有效提取风格不变的特征,导致模型在跨域场景下的泛化能力不足。图像风格的差异会严重影响语义分割的准确性。
核心思路:本文的核心思路是将视觉基础模型(VFM)提取的特征在频域中分解为相位和幅度分量,分别对应内容和风格信息。通过这种分解,可以更有针对性地处理风格变化带来的影响。然后,利用可学习的token来提取任务相关的特征,并设计注意力机制来优化风格影响下的表示。
技术框架:该框架主要包含以下几个阶段:1) 使用冻结的VFM提取图像特征;2) 将提取的特征在频域中分解为相位和幅度分量;3) 使用可学习的token分别处理相位和幅度分量,提取任务特定信息;4) 通过注意力优化方法,弥合风格影响的表示和静态token之间的差距;5) 使用分割头进行语义分割预测。
关键创新:该方法最重要的创新点在于频谱分解Token学习(SET)框架,它能够将VFM特征分解为内容和风格信息,并分别进行处理。这种分解方式使得模型能够更好地学习风格不变的特征,从而提高跨域泛化能力。此外,注意力优化方法进一步增强了模型对风格变化的鲁棒性。与现有方法相比,SET框架更关注于从可学习的token中学习风格不变特征。
关键设计:在频域分解中,使用了傅里叶变换将VFM特征分解为相位和幅度分量。可学习的token被设计为transformer结构,用于提取任务特定信息。注意力优化方法通过计算token之间的注意力权重,来调整风格影响下的表示。损失函数包括分割损失和注意力损失,用于优化模型参数。
🖼️ 关键图片
📊 实验亮点
在多个跨域语义分割数据集上进行了实验,结果表明所提出的SET框架取得了state-of-the-art的性能。例如,在GTA5到Cityscapes的跨域分割任务中,mIoU指标相比现有方法提升了显著的百分点。实验结果验证了SET框架在领域泛化语义分割任务中的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶、遥感图像分析、医学图像分割等领域,解决不同场景下图像风格差异带来的分割精度下降问题。通过提升模型在未见过的目标域上的泛化能力,可以减少对大量标注数据的依赖,降低模型部署成本,加速相关技术的落地应用。
📄 摘要(原文)
The rapid development of Vision Foundation Model (VFM) brings inherent out-domain generalization for a variety of down-stream tasks. Among them, domain generalized semantic segmentation (DGSS) holds unique challenges as the cross-domain images share common pixel-wise content information but vary greatly in terms of the style. In this paper, we present a novel Spectral-dEcomposed Token (SET) learning framework to advance the frontier. Delving into further than existing fine-tuning token & frozen backbone paradigm, the proposed SET especially focuses on the way learning style-invariant features from these learnable tokens. Particularly, the frozen VFM features are first decomposed into the phase and amplitude components in the frequency space, which mainly contain the information of content and style, respectively, and then separately processed by learnable tokens for task-specific information extraction. After the decomposition, style variation primarily impacts the token-based feature enhancement within the amplitude branch. To address this issue, we further develop an attention optimization method to bridge the gap between style-affected representation and static tokens during inference. Extensive cross-domain experiments show its state-of-the-art performance.