VMambaCC: A Visual State Space Model for Crowd Counting

📄 arXiv: 2405.03978v1 📥 PDF

作者: Hao-Yuan Ma, Li Zhang, Shuai Shi

分类: cs.CV

发布日期: 2024-05-07


💡 一句话要点

提出VMambaCC模型,利用视觉状态空间模型解决人群计数问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人群计数 视觉Mamba 状态空间模型 注意力机制 特征金字塔网络

📋 核心要点

  1. 现有深度学习人群计数模型通常计算复杂度高,且缺乏全局感受野,限制了其性能。
  2. 论文提出VMambaCC模型,利用VMamba的全局建模能力和低计算成本优势,提升人群计数效果。
  3. 实验结果表明,VMambaCC在多个数据集上表现出色,例如在ShangHaiTech_PartA数据集上取得了显著的误差降低。

📝 摘要(中文)

本文将视觉Mamba (VMamba) 应用于人群计数,并提出了一种新的VMambaCC (VMamba Crowd Counting) 模型。VMambaCC自然地继承了VMamba的优点,即对图像进行全局建模和低计算成本。此外,我们为VMambaCC设计了一种多头高层特征(MHF)注意力机制。MHF是一种新的注意力机制,它利用高层语义特征来增强低层语义特征,从而以更高的精度增强空间特征表示。在MHF的基础上,我们进一步提出了高层语义监督特征金字塔网络(HS2PFN),该网络逐步整合和增强高层语义信息与低层语义信息。在五个公共数据集上的大量实验结果验证了我们方法的有效性。例如,我们的方法在ShangHaiTech_PartA数据集上实现了51.87的平均绝对误差和81.3的均方误差。我们的代码即将发布。

🔬 方法详解

问题定义:人群计数旨在估计图像或视频中人群的数量。现有方法,特别是基于卷积神经网络的方法,通常计算复杂度较高,并且感受野有限,难以捕捉全局上下文信息,从而影响计数精度。此外,如何有效融合不同层级的特征也是一个挑战。

核心思路:论文的核心思路是将视觉状态空间模型VMamba引入人群计数任务。VMamba具有全局感受野和较低的计算复杂度,能够有效地对图像进行全局建模。此外,论文还设计了多头高层特征(MHF)注意力机制和高层语义监督特征金字塔网络(HS2PFN),以增强特征表示和融合。

技术框架:VMambaCC模型的整体框架包括以下几个主要模块:首先,使用VMamba作为主干网络提取图像特征。然后,利用MHF注意力机制增强低层特征,使其融入高层语义信息。接着,通过HS2PFN逐步整合和增强高层语义信息与低层语义信息,构建多尺度的特征表示。最后,使用一个回归头预测人群密度图,并计算人群数量。

关键创新:论文的关键创新在于以下几点:(1) 将VMamba引入人群计数任务,利用其全局建模能力和低计算复杂度优势。(2) 提出了MHF注意力机制,通过高层语义特征增强低层特征,提升特征表示能力。(3) 设计了HS2PFN,有效融合不同层级的特征,构建多尺度的特征表示。与现有方法相比,VMambaCC能够更好地捕捉全局上下文信息,并有效地融合不同层级的特征。

关键设计:MHF注意力机制的关键设计在于利用高层语义特征作为query,低层特征作为key和value,计算注意力权重,从而将高层语义信息融入低层特征。HS2PFN的关键设计在于逐步将高层特征上采样并与低层特征融合,同时利用高层语义信息进行监督,以提升特征融合的效果。具体的损失函数包括密度图预测的损失和高层语义监督的损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VMambaCC在五个公共数据集上进行了广泛的实验验证,结果表明其性能优于现有方法。例如,在ShangHaiTech_PartA数据集上,VMambaCC取得了51.87的平均绝对误差(MAE)和81.3的均方误差(MSE),相较于其他方法有显著的提升。这些结果表明VMambaCC在人群计数任务中具有很强的竞争力。

🎯 应用场景

VMambaCC模型可应用于智能监控、公共安全、交通管理等领域,例如在大型活动中进行人群密度监测,及时预警拥挤风险;在交通路口进行行人数量统计,优化交通信号灯配时;在商场或超市进行客流量分析,优化商品陈列和促销策略。该研究有助于提升城市管理的智能化水平,保障公共安全。

📄 摘要(原文)

As a deep learning model, Visual Mamba (VMamba) has a low computational complexity and a global receptive field, which has been successful applied to image classification and detection. To extend its applications, we apply VMamba to crowd counting and propose a novel VMambaCC (VMamba Crowd Counting) model. Naturally, VMambaCC inherits the merits of VMamba, or global modeling for images and low computational cost. Additionally, we design a Multi-head High-level Feature (MHF) attention mechanism for VMambaCC. MHF is a new attention mechanism that leverages high-level semantic features to augment low-level semantic features, thereby enhancing spatial feature representation with greater precision. Building upon MHF, we further present a High-level Semantic Supervised Feature Pyramid Network (HS2PFN) that progressively integrates and enhances high-level semantic information with low-level semantic information. Extensive experimental results on five public datasets validate the efficacy of our approach. For example, our method achieves a mean absolute error of 51.87 and a mean squared error of 81.3 on the ShangHaiTech_PartA dataset. Our code is coming soon.