RS-SSM: Refining Forgotten Specifics in State Space Model for Video Semantic Segmentation

📄 arXiv: 2603.24295v1 📥 PDF

作者: Kai Zhu, Zhenyu Cui, Zehua Zang, Jiahuan Zhou

分类: cs.CV

发布日期: 2026-03-25

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出RS-SSM,通过细化遗忘的特定信息,提升状态空间模型在视频语义分割中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频语义分割 状态空间模型 时空建模 信息细化 通道幅度感知器

📋 核心要点

  1. 视频语义分割需要像素级的时空建模能力,但现有状态空间模型因固定大小的状态空间,易遗忘特定信息,限制了分割精度。
  2. RS-SSM的核心思想是互补地细化遗忘的时空特定信息。通过通道幅度感知器提取特定信息,并用遗忘门信息细化器反转和细化遗忘门矩阵。
  3. 实验结果表明,RS-SSM在四个视频语义分割基准上取得了最先进的性能,同时保持了较高的计算效率。

📝 摘要(中文)

本文提出了一种用于视频语义分割的细化特定信息状态空间模型(RS-SSM),旨在解决状态空间模型在视频语义分割中因固定大小的状态空间而遗忘特定信息的问题。RS-SSM通过互补地细化遗忘的时空特定信息来增强模型性能。具体而言,设计了一个通道幅度感知器(CwAP)来提取和对齐状态空间中特定信息的分布特征。此外,提出了一个遗忘门信息细化器(FGIR),用于基于特定信息分布自适应地反转和细化状态空间模型中的遗忘门矩阵。RS-SSM利用反转的遗忘门来补充细化在状态空间压缩期间遗忘的特定信息,从而增强模型在时空像素级分割方面的能力。在四个视频语义分割基准上的大量实验表明,RS-SSM在保持高计算效率的同时,实现了最先进的性能。

🔬 方法详解

问题定义:视频语义分割(VSS)需要对视频中的每个像素进行语义标注,这要求模型具备强大的时空建模能力。现有的基于状态空间模型(SSM)的方法虽然在计算效率上有所提升,但由于固定大小的状态空间,在压缩过程中会不可避免地遗忘一些特定信息,从而影响像素级别的分割精度,尤其是在处理细节丰富的视频时。

核心思路:RS-SSM的核心思路是通过互补地细化被状态空间模型遗忘的特定信息,来提升其在视频语义分割任务中的性能。具体来说,模型会显式地提取并利用这些被遗忘的特定信息,通过一种可学习的方式,将这些信息重新注入到状态空间中,从而弥补信息损失,提升分割的准确性。

技术框架:RS-SSM的整体框架是在传统的状态空间模型基础上,增加了两个关键模块:通道幅度感知器(CwAP)和遗忘门信息细化器(FGIR)。首先,CwAP用于提取状态空间中特定信息的分布特征。然后,FGIR基于这些特征,自适应地反转和细化状态空间模型中的遗忘门矩阵。最终,通过反转的遗忘门,将提取的特定信息补充到状态空间中,完成信息的细化过程。

关键创新:RS-SSM的关键创新在于其能够显式地建模和利用状态空间模型在压缩过程中遗忘的特定信息。与传统方法直接使用压缩后的状态表示不同,RS-SSM通过CwAP和FGIR两个模块,将这些被“遗忘”的信息重新提取出来,并以一种可控的方式重新注入到模型中,从而提升了模型的表达能力和分割精度。

关键设计:CwAP的设计旨在捕捉通道维度的幅度信息,从而区分不同通道的重要性,并提取特定信息。FGIR的关键在于自适应地反转和细化遗忘门矩阵,这使得模型能够根据输入数据的特性,动态地调整信息的保留和遗忘策略。具体的损失函数和网络结构细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RS-SSM在四个视频语义分割基准数据集上取得了state-of-the-art的性能,证明了其有效性。虽然论文中没有给出具体的性能数据和提升幅度,但强调了RS-SSM在保持高计算效率的同时,显著提升了分割精度,表明其在实际应用中具有很强的竞争力。

🎯 应用场景

RS-SSM在视频监控、自动驾驶、视频编辑等领域具有广泛的应用前景。例如,在自动驾驶中,精确的视频语义分割可以帮助车辆更好地理解周围环境,从而做出更安全的决策。在视频编辑中,RS-SSM可以用于快速准确地分割视频中的对象,从而实现更高效的编辑和特效制作。该研究的未来影响在于提升视频理解和处理的智能化水平。

📄 摘要(原文)

Recently, state space models have demonstrated efficient video segmentation through linear-complexity state space compression. However, Video Semantic Segmentation (VSS) requires pixel-level spatiotemporal modeling capabilities to maintain temporal consistency in segmentation of semantic objects. While state space models can preserve common semantic information during state space compression, the fixed-size state space inevitably forgets specific information, which limits the models' capability for pixel-level segmentation. To tackle the above issue, we proposed a Refining Specifics State Space Model approach (RS-SSM) for video semantic segmentation, which performs complementary refining of forgotten spatiotemporal specifics. Specifically, a Channel-wise Amplitude Perceptron (CwAP) is designed to extract and align the distribution characteristics of specific information in the state space. Besides, a Forgetting Gate Information Refiner (FGIR) is proposed to adaptively invert and refine the forgetting gate matrix in the state space model based on the specific information distribution. Consequently, our RS-SSM leverages the inverted forgetting gate to complementarily refine the specific information forgotten during state space compression, thereby enhancing the model's capability for spatiotemporal pixel-level segmentation. Extensive experiments on four VSS benchmarks demonstrate that our RS-SSM achieves state-of-the-art performance while maintaining high computational efficiency. The code is available at https://github.com/zhoujiahuan1991/CVPR2026-RS-SSM.