TextMamba: Scene Text Detector with Mamba

📄 arXiv: 2512.06657v1 📥 PDF

作者: Qiyan Zhao, Yue Yan, Da-Han Wang

分类: cs.CV, cs.AI

发布日期: 2025-12-07

DOI: 10.1109/IJCNN64981.2025.11227846


💡 一句话要点

TextMamba:结合Mamba选择机制的场景文本检测器,提升长序列信息提取能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 场景文本检测 Mamba模型 长程依赖 注意力机制 Top_k选择 多尺度特征融合

📋 核心要点

  1. 现有基于Transformer的文本检测器在建模长程依赖时,存在信息遗忘或关注无关信息的问题。
  2. TextMamba通过集成Mamba的选择机制和注意力层,增强了编码器提取长序列相关信息的能力。
  3. 实验结果表明,TextMamba在多个基准数据集上取得了state-of-the-art或具有竞争力的性能。

📝 摘要(中文)

本文提出了一种基于Mamba的新型场景文本检测器。传统基于卷积神经网络的方法在全局特征提取方面存在局限性,而基于Transformer的方法直接使用原生注意力层作为编码器,忽略了其跨域局限性和固有缺陷,例如在建模文本检测的长程依赖关系时,容易遗忘重要信息或关注不相关的表示。最近提出的状态空间模型Mamba通过线性复杂度的选择机制,展示了更好的长程依赖建模能力。因此,本文将选择机制与注意力层集成,增强编码器从长序列中提取相关信息的能力。此外,采用Top_k算法显式地选择关键信息,减少无关信息的干扰。同时,设计了双尺度前馈网络和嵌入金字塔增强模块,以促进高维隐藏状态交互和多尺度特征融合。在CTW1500、TotalText和ICDAR19ArT等基准测试中,该方法取得了最先进或具有竞争力的性能,F-measure分别为89.7%、89.2%和78.5%。代码即将开源。

🔬 方法详解

问题定义:场景文本检测旨在准确识别图像中的文本区域。现有基于Transformer的方法在处理长文本序列时,由于原生注意力机制的局限性,容易出现信息丢失或关注到不相关区域的问题,影响检测精度。传统CNN方法则缺乏全局建模能力。

核心思路:本文的核心在于利用Mamba模型强大的长程依赖建模能力,并结合注意力机制,从而更有效地提取文本序列中的关键信息。通过选择机制,抑制无关信息的干扰,提升模型对文本特征的辨别能力。

技术框架:TextMamba的整体框架包括:1) 嵌入金字塔增强模块,用于提取多尺度特征;2) 基于Mamba和注意力机制的编码器,用于建模长程依赖关系并选择关键信息;3) 双尺度前馈网络,用于促进高维隐藏状态的交互;4) 解码器,用于预测文本区域。整体流程是从输入图像提取多尺度特征,然后通过编码器进行特征提取和信息选择,最后通过解码器预测文本区域。

关键创新:关键创新在于将Mamba模型引入场景文本检测,并设计了Top_k选择算法,显式地选择关键信息,减少无关信息的干扰。与直接使用Transformer注意力层相比,Mamba具有线性复杂度,更适合处理长序列,并且其选择机制能够更有效地关注相关信息。

关键设计:Top_k选择算法用于在Mamba建模过程中选择最重要的前k个特征。双尺度前馈网络包含两个不同尺度的卷积层,用于捕捉不同尺度的上下文信息。嵌入金字塔增强模块通过不同尺度的卷积操作,提取多尺度特征,并进行融合。损失函数方面,可能采用了常见的文本检测损失函数,例如Dice Loss或IoU Loss,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TextMamba在CTW1500数据集上取得了89.7%的F-measure,在TotalText数据集上取得了89.2%的F-measure,在ICDAR19ArT数据集上取得了78.5%的F-measure。这些结果表明,TextMamba在多个基准数据集上取得了state-of-the-art或具有竞争力的性能,验证了该方法的有效性。

🎯 应用场景

TextMamba在场景文本检测领域具有广泛的应用前景,例如自动驾驶中的交通标志识别、图像搜索中的文本信息提取、文档图像分析中的文本定位等。该研究有助于提升机器对复杂场景中文字的理解能力,具有重要的实际应用价值和学术研究意义。

📄 摘要(原文)

In scene text detection, Transformer-based methods have addressed the global feature extraction limitations inherent in traditional convolution neural network-based methods. However, most directly rely on native Transformer attention layers as encoders without evaluating their cross-domain limitations and inherent shortcomings: forgetting important information or focusing on irrelevant representations when modeling long-range dependencies for text detection. The recently proposed state space model Mamba has demonstrated better long-range dependencies modeling through a linear complexity selection mechanism. Therefore, we propose a novel scene text detector based on Mamba that integrates the selection mechanism with attention layers, enhancing the encoder's ability to extract relevant information from long sequences. We adopt the Top_k algorithm to explicitly select key information and reduce the interference of irrelevant information in Mamba modeling. Additionally, we design a dual-scale feed-forward network and an embedding pyramid enhancement module to facilitate high-dimensional hidden state interactions and multi-scale feature fusion. Our method achieves state-of-the-art or competitive performance on various benchmarks, with F-measures of 89.7\%, 89.2\%, and 78.5\% on CTW1500, TotalText, and ICDAR19ArT, respectively. Codes will be available.