TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles

作者: Sara Shoouri, Morteza Tavakoli Taba, Hun-Seok Kim

分类: cs.CV, cs.AI

发布日期: 2026-05-12

💡 一句话要点

提出TCP-SSM，通过token条件极点改进视觉状态空间模型的效率与可解释性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 视觉模型 长程依赖 循环动态 极点调制 计算效率 可解释性

📋 核心要点

现有高效SSM变体主要通过修改扫描方式降低计算成本，忽略了循环动态，导致模型记忆行为难以控制。
TCP-SSM通过token条件极点，显式地建模和控制SSM的循环动态，提升效率和可解释性。
实验表明，TCP-SSM在图像分类、语义分割和目标检测任务中，降低了计算复杂度，同时保持或提升了精度。

📝 摘要（中文）

状态空间模型(SSM)作为长程视觉任务中注意力模型的有力替代方案，以线性复杂度提供输入相关的循环机制。然而，大多数高效的SSM变体通过修改扫描路径、分辨率或遍历模式来降低计算成本，而很大程度上忽略了循环动态。因此，模型的依赖于状态的记忆行为难以控制，尤其是在紧凑的主干网络中，长的扫描路径可能超过有效的记忆范围。我们提出了Token-Conditioned Poles SSM (TCP-SSM)，一个结构化的选择性SSM框架，它提高了效率，同时通过稳定的极点使循环动态显式化和可解释。TCP-SSM使用1)模拟单调或符号交替衰减的实极点，以及2)捕获阻尼振荡响应的复共轭极点来构建每个扫描算子。通过有界半径和角度调制，TCP-SSM将共享的基础极点转换为token相关的极点，允许每个扫描步骤根据当前的视觉token调整其记忆行为，同时保持极点的稳定性。为了实际的可扩展性，我们将分组极点共享与轻量级的低秩输入路径相结合，从而产生一个高效的扫描算子，该算子保持了线性时间扫描复杂度。在图像分类、语义分割和目标检测方面，TCP-SSM在Vision Mamba风格的模型中降低了高达44%的SSM计算复杂度，同时保持或超过了基线的准确率。

🔬 方法详解

问题定义：现有高效的状态空间模型（SSM）变体，为了降低计算复杂度，主要集中在修改扫描路径、分辨率或遍历模式上，而忽略了模型内部的循环动态。这导致模型的记忆行为难以控制，尤其是在计算资源有限的情况下，长的扫描路径会超出模型的有效记忆范围。因此，如何设计一种既高效又能显式控制模型记忆行为的SSM是一个关键问题。

核心思路：TCP-SSM的核心思路是通过引入token条件极点，来显式地建模和控制SSM的循环动态。具体来说，就是让SSM的极点（poles）依赖于输入的token，从而使模型能够根据当前输入的视觉信息自适应地调整其记忆行为。通过这种方式，模型可以更好地捕捉长程依赖关系，并提高效率。

技术框架：TCP-SSM的整体框架是在Vision Mamba的基础上进行改进。它主要包含以下几个关键模块：1) 实极点和复共轭极点：用于建模单调衰减和阻尼振荡响应；2) Token条件极点调制：通过有界半径和角度调制，将共享的基础极点转换为token相关的极点；3) 分组极点共享：为了提高可扩展性，采用分组极点共享策略；4) 低秩输入路径：采用轻量级的低秩输入路径，降低计算复杂度。

关键创新：TCP-SSM最关键的创新在于引入了token条件极点。与传统的SSM不同，TCP-SSM的极点不是固定的，而是依赖于输入的token。这使得模型能够根据当前输入的视觉信息自适应地调整其记忆行为，从而更好地捕捉长程依赖关系。此外，TCP-SSM还通过分组极点共享和低秩输入路径等技术，进一步提高了模型的效率。

关键设计：TCP-SSM的关键设计包括：1) 极点的选择：使用实极点和复共轭极点来建模不同的衰减模式；2) 极点调制的有界性：通过有界半径和角度调制，保证极点的稳定性；3) 分组极点共享的策略：将极点分成若干组，每组共享相同的极点，从而降低参数量；4) 低秩输入路径的设计：使用低秩矩阵来降低输入路径的计算复杂度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TCP-SSM在Vision Mamba风格的模型中，能够降低高达44%的SSM计算复杂度，同时保持或超过基线的准确率。例如，在ImageNet图像分类任务上，TCP-SSM在降低计算量的同时，取得了与Vision Mamba相当甚至略优的性能。在语义分割和目标检测任务上，TCP-SSM也表现出优异的性能。

🎯 应用场景

TCP-SSM具有广泛的应用前景，包括图像分类、语义分割、目标检测等计算机视觉任务。其高效性和可解释性使其在资源受限的设备上部署大型视觉模型成为可能。未来，TCP-SSM有望应用于自动驾驶、医疗影像分析、视频监控等领域，提升相关系统的性能和可靠性。

📄 摘要（原文）

State Space Models (SSMs) have emerged as a compelling alternative to attention models for long-range vision tasks, offering input-dependent recurrence with linear complexity. However, most efficient SSM variants reduce computation cost by modifying scan routes, resolutions, or traversal patterns, while largely leaving the recurrent dynamics implicit. Consequently, the model's state-dependent memory behavior is difficult to control, particularly in compact backbones where long scan paths can exceed the effective memory horizon. We propose Token-Conditioned Poles SSM (TCP-SSM), a structured selective SSM framework that improves efficiency while making recurrence dynamics explicit and interpretable through stable poles. TCP-SSM builds each scan operator with 1) real poles that model monotone or sign-alternating decay, and 2) complex-conjugate poles that capture damped oscillatory responses. Using bounded radius and angle modulation, TCP-SSM converts shared base poles into token-dependent poles, allowing each scan step to adapt its memory behavior to the current visual token while preserving pole stability. For practical scalability, we integrate grouped pole sharing with a lightweight low-rank input pathway, yielding an efficient scan operator that preserves linear-time scan complexity. Across image classification, semantic segmentation, and object detection, TCP-SSM reduces SSM computation complexity up to 44% in Vision Mamba-style models while maintaining or surpassing baseline accuracy.

TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理