Point-to-Mask: From Arbitrary Point Annotations to Mask-Level Infrared Small Target Detection

📄 arXiv: 2603.16257v1 📥 PDF

作者: Weihua Gao, Wenlong Niu, Jie Tang, Man Yang, Jiafeng Zhang, Xiaodong Peng

分类: cs.CV

发布日期: 2026-03-17

🔗 代码/项目: GITHUB


💡 一句话要点

提出Point-to-Mask框架,以低成本点标注实现红外小目标mask级检测。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 红外小目标检测 点监督学习 伪标签生成 自适应Mask 目标中心定位

📋 核心要点

  1. 传统红外小目标检测依赖像素级标注,成本高昂且不适用于小目标。
  2. Point-to-Mask框架利用点标注,通过PAMG和RPR-Net实现mask级检测。
  3. 实验表明,该框架在点监督下实现了接近全监督的性能,并降低了标注成本。

📝 摘要(中文)

红外小目标检测(IRSTD)方法通常将其视为像素级分割任务,这需要昂贵的密集标注,并且不适合纹理弱、边界模糊的小目标。为了解决这个问题,我们提出了Point-to-Mask框架,通过两个组件桥接低成本的点监督和mask级检测:一个物理驱动的自适应mask生成(PAMG)模块,将点标注转换为紧凑的目标mask和几何线索;以及一个轻量级的半径感知点回归网络(RPR-Net),它利用时空运动线索将IRSTD重新定义为目标中心定位和有效半径回归。这两个模块形成一个闭环:PAMG在训练期间生成伪mask和几何监督,而RPR-Net的几何预测被反馈到PAMG,用于推理期间的像素级mask恢复。为了方便系统评估,我们进一步构建了具有精细像素级标注的序列数据集SIRSTD-Pixel。实验表明,所提出的框架实现了强大的伪标签质量、高检测精度和高效的推理,在点监督设置下,以大大降低的标注成本接近完全监督的性能。

🔬 方法详解

问题定义:现有的红外小目标检测方法通常需要像素级别的密集标注,这在实际应用中成本很高,特别是对于红外小目标而言,其纹理信息弱,边界模糊,难以进行精确的像素级标注。因此,如何利用低成本的标注方式(例如点标注)来实现高性能的红外小目标检测是一个亟待解决的问题。

核心思路:本文的核心思路是将红外小目标检测问题转化为一个点监督下的mask生成问题。通过将点标注信息转化为伪mask,并利用这些伪mask进行训练,从而避免了对像素级别标注的依赖。同时,利用时空运动线索,将目标检测转化为目标中心定位和有效半径回归问题,进一步提升了检测的准确性和效率。

技术框架:Point-to-Mask框架主要包含两个核心模块:物理驱动的自适应Mask生成(PAMG)模块和半径感知点回归网络(RPR-Net)。PAMG模块负责将点标注转换为紧凑的目标mask和几何线索,RPR-Net则负责利用时空运动线索进行目标中心定位和有效半径回归。在训练阶段,PAMG生成伪mask和几何监督信号,用于训练RPR-Net。在推理阶段,RPR-Net预测的几何信息被反馈回PAMG,用于像素级mask的恢复,从而实现最终的mask级检测。

关键创新:该方法最大的创新在于提出了一个闭环的点监督学习框架,通过PAMG模块和RPR-Net的相互作用,实现了从点标注到mask级检测的转化。与传统的像素级标注方法相比,该方法大大降低了标注成本,同时保持了较高的检测精度。此外,利用物理模型驱动的自适应mask生成方法,能够更准确地生成伪mask,从而提升了训练效果。

关键设计:PAMG模块的关键在于如何根据点标注信息生成高质量的伪mask。该模块利用物理模型,考虑了红外小目标的成像特点,自适应地调整mask的形状和大小。RPR-Net的关键在于如何有效地利用时空运动线索进行目标定位和半径回归。该网络采用了轻量级的结构,并设计了专门的损失函数,以提高训练效率和检测精度。具体的损失函数包括定位损失和半径回归损失,用于约束网络的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Point-to-Mask框架在点监督设置下,能够以大大降低的标注成本接近完全监督的性能。在SIRSTD-Pixel数据集上,该方法取得了显著的检测精度提升,并且具有高效的推理速度。与现有的基于像素级标注的方法相比,该方法在标注成本和检测性能之间取得了更好的平衡。

🎯 应用场景

该研究成果可广泛应用于安防监控、自动驾驶、搜救等领域。在这些场景中,红外小目标检测至关重要,而低成本的点标注方法能够大大降低数据标注的负担,加速算法的部署和应用。未来,该方法有望进一步扩展到其他目标检测任务中,实现更高效、更低成本的智能感知。

📄 摘要(原文)

Infrared small target detection (IRSTD) methods predominantly formulate the task as pixel-level segmentation, which requires costly dense annotations and is not well suited to tiny targets with weak texture and ambiguous boundaries. To address this issue, we propose Point-to-Mask, a framework that bridges low-cost point supervision and mask-level detection through two components: a Physics-driven Adaptive Mask Generation (PAMG) module that converts point annotations into compact target masks and geometric cues, and a lightweight Radius-aware Point Regression Network (RPR-Net) that reformulates IRSTD as target center localization and effective radius regression using spatiotemporal motion cues. The two modules form a closed loop: PAMG generates pseudo masks and geometric supervision during training, while the geometric predictions of RPR-Net are fed back to PAMG for pixel-level mask recovery during inference. To facilitate systematic evaluation, we further construct SIRSTD-Pixel, a sequential dataset with refined pixel-level annotations. Experiments show that the proposed framework achieves strong pseudo-label quality, high detection accuracy, and efficient inference, approaching full-supervision performance under point-supervised settings with substantially lower annotation cost. Code and datasets will be available at: https://github.com/GaoScience/point-to-mask.