Deformba: Vision State Space Model with Adaptive State Fusion

📄 arXiv: 2605.21308v1 📥 PDF

作者: Hongyu Ke, Jack Morris, Yongkang Liu, Satoshi Kitai, Kentaro Oguchi, Yi Ding, Haoxin Wang

分类: cs.CV, cs.AI

发布日期: 2026-05-20

期刊: Forty-Third International Conference on Machine Learning (ICML 2026)


💡 一句话要点

Deformba:基于自适应状态融合的视觉状态空间模型,提升视觉任务性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 视觉任务 自适应采样 多模态融合 图像分类 目标检测 BEV感知

📋 核心要点

  1. 现有视觉SSM依赖于固定的图像块扫描方式,限制了模型对图像几何结构的自适应能力,增加了计算复杂度。
  2. Deformba通过上下文自适应的方式动态增强空间结构信息,同时保持SSM的线性复杂度,实现更灵活的视觉建模。
  3. 实验表明,Deformba在图像分类、目标检测、分割以及BEV感知等任务上表现出色,证明了其有效性和通用性。

📝 摘要(中文)

状态空间模型(SSMs)作为Transformer的一种强大而高效的替代方案,展现了线性时间复杂度和卓越的序列建模能力。然而,它们在视觉任务中的应用仍然具有挑战性。首先,现有的视觉SSM主要依赖于手动设计的固定扫描方法将图像块展平为序列,这施加了预定义的几何结构并增加了复杂性。其次,视觉SSM更广泛的应用受到需要在不同信息流之间进行基于查询的交互的领域的阻碍。这是由于为一维序列建模任务设计的SSM的固有因果和自引用性质造成的。这种融合机制对于诸如多视图3D融合等关键感知任务是不可或缺的。为了解决这些限制,我们提出Deformba,这是一种上下文自适应方法,可以在保持SSM线性复杂度的同时动态地增强空间结构信息。Deformba还允许像交叉注意力这样的多模态融合。为了证明Deformba的有效性和通用性,我们测试了它在通用2D视觉任务(如图像分类、目标检测和分割)以及3D视觉任务(如BEV感知)上的性能。大量的实验表明,Deformba在各种视觉感知基准测试中都取得了强大的性能。

🔬 方法详解

问题定义:现有视觉状态空间模型(SSM)在处理视觉任务时,主要依赖于预定义的固定扫描方式将图像块转化为序列,这种方式无法自适应图像的几何结构,限制了模型的表达能力,并且增加了计算复杂度。此外,传统的SSM难以处理需要查询交互的不同信息流,例如多视图3D融合等任务。

核心思路:Deformba的核心思路是引入上下文自适应机制,动态地增强空间结构信息,从而使SSM能够更好地适应图像的几何结构,并支持多模态信息的融合。通过这种方式,Deformba旨在克服现有视觉SSM的局限性,提高模型在各种视觉任务中的性能。

技术框架:Deformba的整体架构基于状态空间模型,并引入了可变形的采样机制。该框架包含以下主要模块:1) 特征提取模块,用于提取图像的底层特征;2) 上下文自适应模块,用于根据上下文信息动态调整采样位置;3) 状态空间模型,用于对序列化的特征进行建模;4) 信息融合模块,用于融合来自不同模态的信息。

关键创新:Deformba最重要的技术创新点在于其上下文自适应采样机制。与传统的固定扫描方式不同,Deformba能够根据图像的局部上下文信息,动态地调整采样位置,从而更好地捕捉图像的几何结构。这种自适应采样机制使得Deformba能够更有效地利用图像信息,提高模型的表达能力。

关键设计:Deformba的关键设计包括:1) 使用可变形卷积网络实现上下文自适应采样;2) 设计了一种新的状态融合机制,用于融合来自不同模态的信息;3) 采用了一种特殊的损失函数,用于优化模型的参数,使其能够更好地适应视觉任务。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Deformba在多个视觉感知基准测试中取得了显著的性能提升。例如,在图像分类任务中,Deformba的准确率超过了现有视觉SSM模型。在目标检测和语义分割任务中,Deformba也取得了具有竞争力的结果。此外,在BEV感知任务中,Deformba展现了强大的多模态融合能力,显著提高了感知精度。

🎯 应用场景

Deformba具有广泛的应用前景,可应用于图像分类、目标检测、语义分割等2D视觉任务,以及BEV感知等3D视觉任务。其自适应空间结构信息增强能力使其在处理复杂场景和多模态数据融合方面具有优势。未来,Deformba有望在自动驾驶、机器人视觉、医学图像分析等领域发挥重要作用。

📄 摘要(原文)

State Space Models (SSMs) have emerged as a powerful and efficient alternative to Transformers, demonstrating linear-time complexity and exceptional sequence modeling capabilities. However, their application to vision tasks remains challenging. First, existing vision SSMs largely depend on manually designed fixed scanning methods to flatten image patches into sequences, which imposes predefined geometric structures and increases the complexity. Second, the broader adoption of vision SSMs is hindered in domains that require query-based interactions between distinct information streams. This is a result of the inherently causal and self-referential nature of SSMs designed for 1D sequence modeling tasks. This fusion mechanism is indispensable for critical perception tasks such as multi-view 3D fusion. To address these limitations, we propose Deformba, a context adaptive method that dynamically augments the spatial structural information while maintaining the linear complexity of SSMs. Deformba also allows multi-modal fusion like cross attention. To demonstrate the effectiveness and general applicability of Deformba, we test its performance on general 2D vision tasks such as image classification, object detection, and segmentation, as well as 3D vision tasks like BEV perception. Extensive experiments show that Deformba achieves strong performance across various visual perception benchmarks.