OuroMamba: A Data-Free Quantization Framework for Vision Mamba

作者: Akshat Ramachandran, Mingyu Lee, Huan Xu, Souvik Kundu, Tushar Krishna

分类: cs.CV, cs.AI

发布日期: 2025-03-13 (更新: 2025-11-26)

备注: Accepted to ICCV 2025

🔗 代码/项目: GITHUB

💡 一句话要点

OuroMamba：首个面向Vision Mamba模型的免数据量化框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Vision Mamba 免数据量化 后训练量化 对比学习 动态异常值检测

📋 核心要点

Vision Mamba模型量化面临长程依赖捕获不足和激活异常值动态变化两大挑战，导致传统量化方法效果不佳。
OuroMamba通过对比学习生成语义丰富的合成数据，并结合动态异常值检测的混合精度量化，有效提升量化性能。
实验表明，OuroMamba在多种视觉任务上超越了现有数据驱动的量化方法，并实现了显著的推理加速。

📝 摘要（中文）

本文提出了OuroMamba，这是首个用于Vision Mamba模型（VMMs）的免数据后训练量化（DFQ）方法。我们发现为VMMs启用DFQ存在两个关键挑战：（1）VMM的循环状态转换限制了长程交互的捕获，导致生成的合成数据语义较弱；（2）VMM激活在时间步长上表现出动态的异常值变化，使得现有的静态PTQ技术失效。为了应对这些挑战，OuroMamba提出了一个两阶段框架：（1）OuroMamba-Gen，用于生成语义丰富且有意义的合成数据。它对通过潜在状态空间中的邻域交互生成的patch级别VMM特征应用对比学习；（2）OuroMamba-Quant，采用混合精度量化，并在推理过程中进行轻量级的动态异常值检测。具体来说，我们提出了一种基于阈值的激活异常通道选择策略，该策略在每个时间步长都会更新。在视觉和生成任务上的大量实验表明，我们的免数据OuroMamba超越了现有的数据驱动PTQ技术，在不同的量化设置中实现了最先进的性能。此外，我们实现了高效的GPU内核，以实现高达2.36倍的实际延迟加速。代码和合成数据集可在此处获得：https://github.com/georgia-tech-synergy-lab/ICCV-OuroMamba

🔬 方法详解

问题定义：论文旨在解决Vision Mamba模型在后训练量化（PTQ）中面临的挑战，即如何在不使用真实数据的情况下，有效地将VMM量化到低精度，同时保持模型性能。现有PTQ方法在VMM上表现不佳，主要原因是VMM的循环结构难以生成高质量的合成数据，且激活值存在动态的异常值，导致量化精度损失。

核心思路：论文的核心思路是分阶段解决VMM量化的两个关键问题。首先，通过对比学习生成更具代表性的合成数据，以弥补VMM循环结构带来的信息损失。其次，采用动态异常值检测和混合精度量化，以适应VMM激活值的动态变化，从而提高量化精度。

技术框架：OuroMamba框架包含两个主要阶段：OuroMamba-Gen和OuroMamba-Quant。OuroMamba-Gen负责生成高质量的合成数据，它利用VMM的中间特征，通过对比学习增强数据的语义信息。OuroMamba-Quant则利用生成的合成数据进行量化，并采用动态异常值检测和混合精度量化策略，以进一步提高量化性能。

关键创新：论文的关键创新在于提出了一个免数据的VMM量化框架，该框架能够有效地生成高质量的合成数据，并自适应地处理VMM激活值的动态变化。对比学习和动态异常值检测是该框架的核心技术创新。

关键设计：OuroMamba-Gen使用对比学习损失来训练生成器，该损失鼓励生成的合成数据在特征空间中与真实数据相似。OuroMamba-Quant采用基于阈值的通道选择策略来检测异常值，并对不同的通道采用不同的量化精度。具体的阈值和量化精度是根据合成数据统计信息确定的。

🖼️ 关键图片

📊 实验亮点

OuroMamba在多个视觉任务上取得了显著的性能提升，超越了现有的数据驱动PTQ方法。实验结果表明，OuroMamba能够在保持模型精度的前提下，实现高达2.36倍的推理加速。此外，该方法无需真实数据，降低了量化过程的成本和风险。

🎯 应用场景

OuroMamba可应用于各种需要低延迟和低功耗的视觉任务，例如移动设备上的图像识别、视频分析和生成式AI应用。该方法能够有效减小VMM模型的尺寸和计算复杂度，使其更易于部署在资源受限的平台上，从而推动VMM在实际应用中的普及。

📄 摘要（原文）

We present OuroMamba, the first data-free post-training quantization (DFQ) method for vision Mamba-based models (VMMs). We identify two key challenges in enabling DFQ for VMMs, (1) VMM's recurrent state transitions restricts capturing of long-range interactions and leads to semantically weak synthetic data, (2) VMM activations exhibit dynamic outlier variations across time-steps, rendering existing static PTQ techniques ineffective. To address these challenges, OuroMamba presents a two-stage framework: (1) OuroMamba-Gen to generate semantically rich and meaningful synthetic data. It applies contrastive learning on patch level VMM features generated through neighborhood interactions in the latent state space, (2) OuroMamba-Quant to employ mixed-precision quantization with lightweight dynamic outlier detection during inference. In specific, we present a thresholding based outlier channel selection strategy for activations that gets updated every time-step. Extensive experiments across vision and generative tasks show that our data-free OuroMamba surpasses existing data-driven PTQ techniques, achieving state-of-the-art performance across diverse quantization settings. Additionally, we implement efficient GPU kernels to achieve practical latency speedup of up to 2.36x. Code and synthetic dataset are available here: https://github.com/georgia-tech-synergy-lab/ICCV-OuroMamba

OuroMamba: A Data-Free Quantization Framework for Vision Mamba

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理