ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning

作者: Daichi Yashima, Shuhei Kurita, Yusuke Oda, Shuntaro Suzuki, Seitaro Otsuki, Komei Sugiura

分类: cs.CV

发布日期: 2026-04-09

备注: Accepted to ICPR 2026

💡 一句话要点

提出ABMamba，一种基于对齐分层双向扫描Mamba的高效视频字幕多模态大语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频字幕 多模态大语言模型 深度状态空间模型 Mamba 分层双向扫描 线性复杂度 视频理解

📋 核心要点

现有基于Transformer的视频字幕模型计算复杂度高，难以处理长视频序列。
ABMamba采用线性复杂度的深度状态空间模型作为语言骨干，并设计对齐分层双向扫描模块。
实验表明，ABMamba在视频字幕任务上取得了与现有模型相当的性能，并提高了吞吐量。

📝 摘要（中文）

本研究专注于完全开放的多模态大语言模型（MLLM）的视频字幕生成任务。由于视觉序列复杂的时序依赖关系和巨大的序列长度，理解视频序列极具挑战性。现有基于Transformer的方法的核心注意力机制的计算复杂度随序列长度呈二次方增长，这使得计算成本非常高昂。为了解决这些限制，我们提出了对齐分层双向扫描Mamba（ABMamba），这是一个具有线性计算复杂度的完全开放的MLLM，能够可扩展地处理视频序列。ABMamba扩展了深度状态空间模型作为其语言骨干，替换了代价高昂的二次方注意力机制，并采用了一种新颖的对齐分层双向扫描模块，该模块跨多个时间分辨率处理视频。在VATEX和MSR-VTT等标准视频字幕基准测试中，ABMamba展示了与典型MLLM相比具有竞争力的性能，同时实现了大约三倍的更高吞吐量。

🔬 方法详解

问题定义：视频字幕生成任务旨在根据给定的视频序列生成描述视频内容的自然语言句子。现有基于Transformer的MLLM在处理长视频时，由于其注意力机制的计算复杂度与序列长度呈平方关系，导致计算成本过高，难以扩展到更长的视频序列。

核心思路：ABMamba的核心思路是利用深度状态空间模型（DSSM）替代Transformer中的注意力机制，从而将计算复杂度降低到线性级别。同时，为了更好地捕捉视频中的时序信息，设计了对齐分层双向扫描模块，该模块可以在不同的时间分辨率上处理视频，并融合不同分辨率的信息。

技术框架：ABMamba的整体框架包括以下几个主要模块：1) 视频编码器：用于提取视频帧的视觉特征。2) 对齐分层双向扫描Mamba：用于处理视频序列的时序信息，并生成上下文表示。3) 语言解码器：用于根据上下文表示生成字幕。视频编码器可以使用预训练的视觉模型，如CLIP。语言解码器可以使用预训练的语言模型，如LLaMA。

关键创新：ABMamba的关键创新在于以下两点：1) 使用深度状态空间模型（Mamba）作为语言骨干，替代了Transformer中的注意力机制，从而降低了计算复杂度。2) 提出了对齐分层双向扫描模块，该模块可以在不同的时间分辨率上处理视频，并融合不同分辨率的信息，从而更好地捕捉视频中的时序信息。与现有方法相比，ABMamba在计算效率上具有显著优势，可以处理更长的视频序列。

关键设计：对齐分层双向扫描模块的关键设计包括：1) 多尺度时间分辨率：使用不同的步长对视频序列进行采样，从而获得不同时间分辨率的表示。2) 双向扫描：使用双向的Mamba模型对每个时间分辨率的序列进行扫描，从而捕捉序列中的前后依赖关系。3) 对齐：将不同时间分辨率的表示对齐到同一维度，以便进行融合。损失函数通常采用交叉熵损失，用于训练语言解码器生成正确的字幕。

🖼️ 关键图片

📊 实验亮点

ABMamba在VATEX和MSR-VTT等标准视频字幕基准测试中取得了与典型MLLM相比具有竞争力的性能，同时实现了大约三倍的更高吞吐量。这意味着ABMamba在保证性能的同时，显著提高了计算效率，使其能够处理更长的视频序列，并适用于对实时性要求较高的应用场景。

🎯 应用场景

ABMamba具有广泛的应用前景，例如：视频内容理解、智能监控、视频搜索、自动驾驶等。该模型可以用于分析视频内容，提取关键信息，并生成相应的描述。在智能监控领域，可以用于自动识别异常事件。在视频搜索领域，可以用于根据视频内容进行检索。在自动驾驶领域，可以用于理解周围环境，并做出相应的决策。未来，ABMamba可以进一步扩展到其他多模态任务，如视频问答、视频摘要等。

📄 摘要（原文）

In this study, we focus on video captioning by fully open multimodal large language models (MLLMs). The comprehension of visual sequences is challenging because of their intricate temporal dependencies and substantial sequence length. The core attention mechanisms of existing Transformer-based approaches scale quadratically with the sequence length, making them computationally prohibitive. To address these limitations, we propose Aligned Hierarchical Bidirectional Scan Mamba (ABMamba), a fully open MLLM with linear computational complexity that enables the scalable processing of video sequences. ABMamba extends Deep State Space Models as its language backbone, replacing the costly quadratic attention mechanisms, and employs a novel Aligned Hierarchical Bidirectional Scan module that processes videos across multiple temporal resolutions. On standard video captioning benchmarks such as VATEX and MSR-VTT, ABMamba demonstrates competitive performance compared to typical MLLMs while achieving approximately three times higher throughput.

ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理