Late Breaking Results: Quamba-SE: Soft-edge Quantizer for Activations in State Space Models

作者: Yizhi Chen, Ahmed Hemani

分类: cs.LG, cs.AI, cs.AR

发布日期: 2026-01-14

备注: Accepted to DATE Late Breaking Results 2026, Verona, Italy

💡 一句话要点

Quamba-SE：用于状态空间模型激活量化的软边缘量化器

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 激活量化 软边缘量化 模型压缩 Mamba 零样本学习 INT8量化

📋 核心要点

现有激活量化方法在状态空间模型中存在信息损失，尤其是在处理异常值时，硬裁剪会降低模型性能。
Quamba-SE通过引入软边缘量化，使用自适应尺度来处理不同范围的激活值，从而保留异常值信息并提高整体精度。
实验结果表明，Quamba-SE在Mamba-130M模型上，针对多个零样本基准测试，性能优于现有Quamba量化方法。

📝 摘要（中文）

我们提出了Quamba-SE，一种用于状态空间模型（SSM）激活量化的软边缘量化器。与现有方法不同，Quamba-SE使用标准的INT8操作，并采用三种自适应尺度：高精度用于小数值，标准尺度用于正常值，低精度用于异常值。这保留了异常值信息，而不是进行硬裁剪，同时保持了其他值的精度。我们在Mamba-130M上，针对6个零样本基准进行了评估。结果表明，Quamba-SE始终优于Quamba，在单个基准上实现了高达+2.68%的提升，在6个数据集的平均准确率上实现了高达+0.83%的提升。

🔬 方法详解

问题定义：论文旨在解决状态空间模型（SSM）中激活量化时，由于硬裁剪导致的异常值信息丢失问题。现有的量化方法通常采用统一的量化尺度，对于超出范围的激活值进行硬裁剪，这会严重影响模型的性能，尤其是在处理长尾分布的数据时。

核心思路：Quamba-SE的核心思路是引入软边缘量化，即不采用硬裁剪，而是使用不同的量化尺度来处理不同范围的激活值。具体来说，对于小数值，使用高精度量化；对于正常值，使用标准尺度量化；对于异常值，使用低精度量化。这样既可以保留异常值的信息，又可以保证其他值的精度。

技术框架：Quamba-SE的整体框架是在现有的状态空间模型（如Mamba）中，将激活函数的输出进行量化时，替换为Quamba-SE量化器。该量化器包含三个自适应尺度，分别对应于不同的激活值范围。具体流程为：首先，将激活值输入到Quamba-SE量化器中；然后，根据激活值的大小，选择对应的量化尺度；最后，对激活值进行量化。

关键创新：Quamba-SE的关键创新在于提出了软边缘量化的概念，并将其应用于状态空间模型的激活量化中。与传统的硬裁剪量化方法相比，Quamba-SE能够更好地保留异常值的信息，从而提高模型的性能。此外，Quamba-SE还采用了自适应尺度，可以根据激活值的分布动态调整量化尺度，进一步提高了量化的精度。

关键设计：Quamba-SE的关键设计在于三个自适应尺度的选择和调整。这些尺度需要根据具体的激活值分布进行调整，以达到最佳的量化效果。论文中可能使用了某种策略（具体细节未知）来自动调整这些尺度。此外，损失函数的设计也可能需要考虑软边缘量化的特点，以避免过度惩罚异常值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Quamba-SE在Mamba-130M模型上，针对6个零样本基准测试，性能优于现有的Quamba量化方法。在单个基准上，Quamba-SE实现了高达+2.68%的提升，在6个数据集的平均准确率上实现了高达+0.83%的提升。这些结果表明，Quamba-SE能够有效地保留异常值信息，并提高模型的整体性能。

🎯 应用场景

Quamba-SE具有广泛的应用前景，可以应用于各种需要进行模型压缩和加速的状态空间模型中，例如Mamba、RWKV等。该方法可以降低模型的存储空间和计算复杂度，使其更容易部署在资源受限的设备上，例如移动设备和嵌入式系统。此外，Quamba-SE还可以应用于自然语言处理、计算机视觉等领域，提高相关任务的性能。

📄 摘要（原文）

We propose Quamba-SE, a soft-edge quantizer for State Space Model (SSM) activation quantization. Unlike existing methods, using standard INT8 operation, Quamba-SE employs three adaptive scales: high-precision for small values, standard scale for normal values, and low-precision for outliers. This preserves outlier information instead of hard clipping, while maintaining precision for other values. We evaluate on Mamba- 130M across 6 zero-shot benchmarks. Results show that Quamba- SE consistently outperforms Quamba, achieving up to +2.68% on individual benchmarks and up to +0.83% improvement in the average accuracy of 6 datasets.

Late Breaking Results: Quamba-SE: Soft-edge Quantizer for Activations in State Space Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理