Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection

📄 arXiv: 2408.15020v2 📥 PDF

作者: Siyuan Yao, Hao Sun, Tian-Zhu Xiang, Xiao Wang, Xiaochun Cao

分类: cs.CV

发布日期: 2024-08-27 (更新: 2024-09-21)

备注: Accepted by IEEE Transactions on Image Processing

🔗 代码/项目: GITHUB


💡 一句话要点

提出HGINet,通过分层图交互Transformer和动态Token聚类实现伪装目标检测。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 伪装目标检测 图交互网络 Transformer 动态Token聚类 分层特征融合

📋 核心要点

  1. 现有COD方法难以区分伪装目标与背景,因为它们具有高度相似性,这构成了核心挑战。
  2. HGINet通过区域感知Token聚焦注意力和分层图交互Transformer,增强特征表示,从而解决上述问题。
  3. 实验结果表明,HGINet在多个数据集上优于现有SOTA方法,证明了其有效性。

📝 摘要(中文)

伪装目标检测(COD)旨在识别与周围背景无缝融合的目标。由于伪装目标和背景区域之间存在内在相似性,因此现有方法很难精确区分伪装目标。本文提出了一种用于伪装目标检测的分层图交互网络HGINet,它能够通过分层Token化特征之间的有效图交互来发现难以察觉的目标。具体来说,我们首先设计了一个具有动态Token聚类的区域感知Token聚焦注意力(RTFA),以挖掘局部区域中潜在的可区分Token。然后,提出了一个分层图交互Transformer(HGIT),用于在潜在交互空间中构建分层特征之间的双向对齐通信,以增强视觉语义。此外,我们提出了一个具有置信度聚合特征融合(CAFF)模块的解码器网络,该网络逐步融合分层交互特征,以细化模糊区域中的局部细节。在主流数据集COD10K、CAMO、NC4K和CHAMELEON上进行的大量实验表明,与现有的最先进方法相比,HGINet具有卓越的性能。代码已开源。

🔬 方法详解

问题定义:伪装目标检测旨在识别图像中与背景高度融合的目标。现有方法难以有效区分伪装目标和背景,导致检测精度低,尤其是在目标边缘模糊的区域。现有方法的痛点在于缺乏对局部区域细微差异的有效建模和利用,以及全局上下文信息的有效融合。

核心思路:HGINet的核心思路是通过分层图交互Transformer,在不同尺度的特征图上进行信息交互,从而增强特征表示能力。通过动态Token聚类,关注局部区域中更具区分性的特征,并利用图结构建模Token之间的关系,从而更好地捕捉伪装目标的细微特征。

技术框架:HGINet的整体架构包括以下几个主要模块:1) 特征提取网络(backbone),用于提取多尺度特征;2) 区域感知Token聚焦注意力(RTFA)模块,用于挖掘局部区域中潜在的可区分Token;3) 分层图交互Transformer(HGIT)模块,用于构建分层特征之间的双向对齐通信;4) 解码器网络,包含置信度聚合特征融合(CAFF)模块,用于逐步融合分层交互特征,并细化局部细节。

关键创新:HGINet的关键创新在于:1) 提出了区域感知Token聚焦注意力(RTFA)模块,能够动态地关注局部区域中更具区分性的Token;2) 提出了分层图交互Transformer(HGIT)模块,通过图结构建模Token之间的关系,并进行分层特征交互,从而增强特征表示能力;3) 提出了置信度聚合特征融合(CAFF)模块,能够有效地融合不同尺度的特征,并细化局部细节。与现有方法的本质区别在于,HGINet更加关注局部区域的细微差异,并利用图结构建模Token之间的关系,从而更好地捕捉伪装目标的特征。

关键设计:RTFA模块使用动态Token聚类算法,根据Token之间的相似性将Token聚类成不同的簇,并为每个簇分配不同的权重,从而关注更具区分性的Token。HGIT模块使用Transformer结构进行特征交互,并引入了图结构建模Token之间的关系。CAFF模块使用置信度图来指导特征融合,从而更好地融合不同尺度的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HGINet在COD10K、CAMO、NC4K和CHAMELEON等主流数据集上均取得了SOTA性能。例如,在COD10K数据集上,HGINet的S-measure和E-measure指标分别达到了0.785和0.852,显著优于现有方法。消融实验验证了各个模块的有效性。

🎯 应用场景

HGINet在多个领域具有潜在应用价值,包括医学图像分析(如肿瘤检测)、遥感图像分析(如伪装目标识别)、自动驾驶(如行人检测)和安全监控(如异常行为检测)。该研究有助于提高复杂场景下的目标检测精度,具有重要的实际意义和应用前景。

📄 摘要(原文)

Camouflaged object detection (COD) aims to identify the objects that seamlessly blend into the surrounding backgrounds. Due to the intrinsic similarity between the camouflaged objects and the background region, it is extremely challenging to precisely distinguish the camouflaged objects by existing approaches. In this paper, we propose a hierarchical graph interaction network termed HGINet for camouflaged object detection, which is capable of discovering imperceptible objects via effective graph interaction among the hierarchical tokenized features. Specifically, we first design a region-aware token focusing attention (RTFA) with dynamic token clustering to excavate the potentially distinguishable tokens in the local region. Afterwards, a hierarchical graph interaction transformer (HGIT) is proposed to construct bi-directional aligned communication between hierarchical features in the latent interaction space for visual semantics enhancement. Furthermore, we propose a decoder network with confidence aggregated feature fusion (CAFF) modules, which progressively fuses the hierarchical interacted features to refine the local detail in ambiguous regions. Extensive experiments conducted on the prevalent datasets, i.e. COD10K, CAMO, NC4K and CHAMELEON demonstrate the superior performance of HGINet compared to existing state-of-the-art methods. Our code is available at https://github.com/Garyson1204/HGINet.