TextMamba: Scene Text Detector with Mamba

作者: Qiyan Zhao, Yue Yan, Da-Han Wang

分类: cs.CV, cs.AI

发布日期: 2025-12-07

DOI: 10.1109/IJCNN64981.2025.11227846

💡 一句话要点

TextMamba：结合Mamba选择机制的场景文本检测器，提升长序列信息提取能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 场景文本检测 Mamba模型 长程依赖 注意力机制 Top_k选择 多尺度特征融合

📋 核心要点

现有基于Transformer的文本检测器在建模长程依赖时，存在信息遗忘或关注无关信息的问题。
TextMamba通过集成Mamba的选择机制和注意力层，增强了编码器提取长序列相关信息的能力。
实验结果表明，TextMamba在多个基准数据集上取得了state-of-the-art或具有竞争力的性能。

📝 摘要（中文）

本文提出了一种基于Mamba的新型场景文本检测器。传统基于卷积神经网络的方法在全局特征提取方面存在局限性，而基于Transformer的方法直接使用原生注意力层作为编码器，忽略了其跨域局限性和固有缺陷，例如在建模文本检测的长程依赖关系时，容易遗忘重要信息或关注不相关的表示。最近提出的状态空间模型Mamba通过线性复杂度的选择机制，展示了更好的长程依赖建模能力。因此，本文将选择机制与注意力层集成，增强编码器从长序列中提取相关信息的能力。此外，采用Top_k算法显式地选择关键信息，减少无关信息的干扰。同时，设计了双尺度前馈网络和嵌入金字塔增强模块，以促进高维隐藏状态交互和多尺度特征融合。在CTW1500、TotalText和ICDAR19ArT等基准测试中，该方法取得了最先进或具有竞争力的性能，F-measure分别为89.7%、89.2%和78.5%。代码即将开源。

🔬 方法详解

问题定义：场景文本检测旨在准确识别图像中的文本区域。现有基于Transformer的方法在处理长文本序列时，由于原生注意力机制的局限性，容易出现信息丢失或关注到不相关区域的问题，影响检测精度。传统CNN方法则缺乏全局建模能力。

核心思路：本文的核心在于利用Mamba模型强大的长程依赖建模能力，并结合注意力机制，从而更有效地提取文本序列中的关键信息。通过选择机制，抑制无关信息的干扰，提升模型对文本特征的辨别能力。

技术框架：TextMamba的整体框架包括：1) 嵌入金字塔增强模块，用于提取多尺度特征；2) 基于Mamba和注意力机制的编码器，用于建模长程依赖关系并选择关键信息；3) 双尺度前馈网络，用于促进高维隐藏状态的交互；4) 解码器，用于预测文本区域。整体流程是从输入图像提取多尺度特征，然后通过编码器进行特征提取和信息选择，最后通过解码器预测文本区域。

关键创新：关键创新在于将Mamba模型引入场景文本检测，并设计了Top_k选择算法，显式地选择关键信息，减少无关信息的干扰。与直接使用Transformer注意力层相比，Mamba具有线性复杂度，更适合处理长序列，并且其选择机制能够更有效地关注相关信息。

关键设计：Top_k选择算法用于在Mamba建模过程中选择最重要的前k个特征。双尺度前馈网络包含两个不同尺度的卷积层，用于捕捉不同尺度的上下文信息。嵌入金字塔增强模块通过不同尺度的卷积操作，提取多尺度特征，并进行融合。损失函数方面，可能采用了常见的文本检测损失函数，例如Dice Loss或IoU Loss，具体细节未知。

🖼️ 关键图片

📊 实验亮点

TextMamba在CTW1500数据集上取得了89.7%的F-measure，在TotalText数据集上取得了89.2%的F-measure，在ICDAR19ArT数据集上取得了78.5%的F-measure。这些结果表明，TextMamba在多个基准数据集上取得了state-of-the-art或具有竞争力的性能，验证了该方法的有效性。

🎯 应用场景

TextMamba在场景文本检测领域具有广泛的应用前景，例如自动驾驶中的交通标志识别、图像搜索中的文本信息提取、文档图像分析中的文本定位等。该研究有助于提升机器对复杂场景中文字的理解能力，具有重要的实际应用价值和学术研究意义。

📄 摘要（原文）

In scene text detection, Transformer-based methods have addressed the global feature extraction limitations inherent in traditional convolution neural network-based methods. However, most directly rely on native Transformer attention layers as encoders without evaluating their cross-domain limitations and inherent shortcomings: forgetting important information or focusing on irrelevant representations when modeling long-range dependencies for text detection. The recently proposed state space model Mamba has demonstrated better long-range dependencies modeling through a linear complexity selection mechanism. Therefore, we propose a novel scene text detector based on Mamba that integrates the selection mechanism with attention layers, enhancing the encoder's ability to extract relevant information from long sequences. We adopt the Top_k algorithm to explicitly select key information and reduce the interference of irrelevant information in Mamba modeling. Additionally, we design a dual-scale feed-forward network and an embedding pyramid enhancement module to facilitate high-dimensional hidden state interactions and multi-scale feature fusion. Our method achieves state-of-the-art or competitive performance on various benchmarks, with F-measures of 89.7\%, 89.2\%, and 78.5\% on CTW1500, TotalText, and ICDAR19ArT, respectively. Codes will be available.

TextMamba: Scene Text Detector with Mamba

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理