Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark
作者: Bing Cao, Quanhao Lu, Jiekang Feng, Qilong Wang, Qinghua Hu, Pengfei Zhu
分类: cs.CV
发布日期: 2024-11-20 (更新: 2025-03-06)
备注: ICLR25
💡 一句话要点
提出密度嵌入高效掩码自编码计数框架(E-MAC),解决视频对象计数中前景-背景动态不平衡问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频对象计数 掩码自编码器 密度嵌入 时序协同融合 前景-背景不平衡 多模态学习 DroneBird数据集
📋 核心要点
- 视频对象计数面临前景-背景动态不平衡的挑战,现有方法难以有效处理目标对象稀疏性问题。
- 提出密度嵌入掩码自编码计数框架(E-MAC),通过密度嵌入掩码建模和时序协同融合策略,提升计数精度。
- 在人群数据集和新提出的DroneBird数据集上进行实验,验证了E-MAC框架的优越性。
📝 摘要(中文)
本文提出了一种密度嵌入的高效掩码自编码计数框架(E-MAC),旨在解决视频对象计数中由于目标对象稀疏性导致的动态前景-背景不平衡问题。该框架包含一种新的密度嵌入掩码建模(DEMO)方法,它将密度图作为辅助模态,对图像和密度图执行多模态自表示学习,增强模型在密度回归方面的表示能力。为了解决DEMO引入的冗余背景信息问题,提出了一种基于密度图的高效空间自适应掩码方法。同时,采用基于光流的时序协同融合策略,有效捕捉帧间的动态变化,对齐特征以获得多帧密度残差,从而利用相邻帧的信息提高当前帧的计数精度。此外,考虑到现有数据集主要集中于以人为中心的场景,本文提出了一个大型视频鸟类计数数据集DroneBird,用于自然场景下的候鸟保护。在三个人群数据集和DroneBird上的大量实验验证了本文方法的优越性。
🔬 方法详解
问题定义:视频对象计数旨在估计视频中特定对象的数量。现有方法在处理前景-背景动态不平衡问题时存在不足,尤其是在目标对象稀疏的情况下,容易导致严重的欠预测或过预测错误。这是因为模型难以有效区分前景目标和背景干扰,从而影响计数精度。
核心思路:本文的核心思路是利用密度图作为辅助信息,通过多模态自表示学习增强模型对前景目标的感知能力,并采用空间自适应掩码和时序协同融合策略,抑制背景干扰,捕捉帧间动态变化,从而提高计数精度。这种设计旨在使模型更加关注前景区域,并充分利用视频中的时序信息。
技术框架:E-MAC框架主要包含以下几个模块:1) 密度嵌入掩码建模(DEMO):将密度图作为辅助模态,与图像一起进行掩码自编码学习,增强模型对密度信息的理解。2) 高效空间自适应掩码:根据密度图动态生成掩码,使模型更加关注前景区域。3) 基于光流的时序协同融合:利用光流信息对齐相邻帧的特征,提取多帧密度残差,从而利用时序信息提高计数精度。
关键创新:本文最重要的技术创新点在于密度嵌入掩码建模(DEMO)方法和高效空间自适应掩码策略。DEMO方法通过引入密度图作为辅助模态,增强了模型对密度信息的感知能力,从而提高了密度回归的准确性。高效空间自适应掩码策略则能够根据密度图动态调整掩码,使模型更加关注前景区域,从而抑制了背景干扰。与现有方法相比,E-MAC框架能够更有效地处理前景-背景动态不平衡问题。
关键设计:在DEMO方法中,图像和密度图被随机掩码,然后通过编码器-解码器结构进行重建。损失函数包括图像重建损失和密度图重建损失。在高效空间自适应掩码策略中,掩码的生成依赖于密度图的阈值分割。在时序协同融合中,光流用于对齐相邻帧的特征,然后将对齐后的特征与当前帧的特征进行融合,以提取多帧密度残差。
📊 实验亮点
在三个公开人群数据集和新提出的DroneBird数据集上进行了大量实验,结果表明E-MAC框架在计数精度方面优于现有方法。例如,在DroneBird数据集上,E-MAC框架的MAE指标相比于最佳基线方法降低了超过10%。这些实验结果充分验证了E-MAC框架的有效性和优越性。
🎯 应用场景
该研究成果可应用于智能监控、交通管理、野生动物保护等领域。例如,在野生动物保护中,可以利用该技术对鸟类、兽类等动物进行计数,从而监测其种群数量变化,为保护工作提供数据支持。此外,该技术还可以应用于人群密度估计,为公共安全管理提供决策依据。
📄 摘要(原文)
The dynamic imbalance of the fore-background is a major challenge in video object counting, which is usually caused by the sparsity of target objects. This remains understudied in existing works and often leads to severe under-/over-prediction errors. To tackle this issue in video object counting, we propose a density-embedded Efficient Masked Autoencoder Counting (E-MAC) framework in this paper. To empower the model's representation ability on density regression, we develop a new $\mathtt{D}$ensity-$\mathtt{E}$mbedded $\mathtt{M}$asked m$\mathtt{O}$deling ($\mathtt{DEMO}$) method, which first takes the density map as an auxiliary modality to perform multimodal self-representation learning for image and density map. Although $\mathtt{DEMO}$ contributes to effective cross-modal regression guidance, it also brings in redundant background information, making it difficult to focus on the foreground regions. To handle this dilemma, we propose an efficient spatial adaptive masking derived from density maps to boost efficiency. Meanwhile, we employ an optical flow-based temporal collaborative fusion strategy to effectively capture the dynamic variations across frames, aligning features to derive multi-frame density residuals. The counting accuracy of the current frame is boosted by harnessing the information from adjacent frames. In addition, considering that most existing datasets are limited to human-centric scenarios, we first propose a large video bird counting dataset, DroneBird, in natural scenarios for migratory bird protection. Extensive experiments on three crowd datasets and our \textit{DroneBird} validate our superiority against the counterparts. The code and dataset are available.