Point-to-Mask: From Arbitrary Point Annotations to Mask-Level Infrared Small Target Detection

作者: Weihua Gao, Wenlong Niu, Jie Tang, Man Yang, Jiafeng Zhang, Xiaodong Peng

分类: cs.CV

发布日期: 2026-03-17

🔗 代码/项目: GITHUB

💡 一句话要点

提出Point-to-Mask框架，以低成本点标注实现红外小目标mask级检测。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 红外小目标检测 点监督学习 伪标签生成 自适应Mask 目标中心定位

📋 核心要点

传统红外小目标检测依赖像素级标注，成本高昂且不适用于小目标。
Point-to-Mask框架利用点标注，通过PAMG和RPR-Net实现mask级检测。
实验表明，该框架在点监督下实现了接近全监督的性能，并降低了标注成本。

📝 摘要（中文）

红外小目标检测(IRSTD)方法通常将其视为像素级分割任务，这需要昂贵的密集标注，并且不适合纹理弱、边界模糊的小目标。为了解决这个问题，我们提出了Point-to-Mask框架，通过两个组件桥接低成本的点监督和mask级检测：一个物理驱动的自适应mask生成(PAMG)模块，将点标注转换为紧凑的目标mask和几何线索；以及一个轻量级的半径感知点回归网络(RPR-Net)，它利用时空运动线索将IRSTD重新定义为目标中心定位和有效半径回归。这两个模块形成一个闭环：PAMG在训练期间生成伪mask和几何监督，而RPR-Net的几何预测被反馈到PAMG，用于推理期间的像素级mask恢复。为了方便系统评估，我们进一步构建了具有精细像素级标注的序列数据集SIRSTD-Pixel。实验表明，所提出的框架实现了强大的伪标签质量、高检测精度和高效的推理，在点监督设置下，以大大降低的标注成本接近完全监督的性能。

🔬 方法详解

问题定义：现有的红外小目标检测方法通常需要像素级别的密集标注，这在实际应用中成本很高，特别是对于红外小目标而言，其纹理信息弱，边界模糊，难以进行精确的像素级标注。因此，如何利用低成本的标注方式（例如点标注）来实现高性能的红外小目标检测是一个亟待解决的问题。

核心思路：本文的核心思路是将红外小目标检测问题转化为一个点监督下的mask生成问题。通过将点标注信息转化为伪mask，并利用这些伪mask进行训练，从而避免了对像素级别标注的依赖。同时，利用时空运动线索，将目标检测转化为目标中心定位和有效半径回归问题，进一步提升了检测的准确性和效率。

技术框架：Point-to-Mask框架主要包含两个核心模块：物理驱动的自适应Mask生成(PAMG)模块和半径感知点回归网络(RPR-Net)。PAMG模块负责将点标注转换为紧凑的目标mask和几何线索，RPR-Net则负责利用时空运动线索进行目标中心定位和有效半径回归。在训练阶段，PAMG生成伪mask和几何监督信号，用于训练RPR-Net。在推理阶段，RPR-Net预测的几何信息被反馈回PAMG，用于像素级mask的恢复，从而实现最终的mask级检测。

关键创新：该方法最大的创新在于提出了一个闭环的点监督学习框架，通过PAMG模块和RPR-Net的相互作用，实现了从点标注到mask级检测的转化。与传统的像素级标注方法相比，该方法大大降低了标注成本，同时保持了较高的检测精度。此外，利用物理模型驱动的自适应mask生成方法，能够更准确地生成伪mask，从而提升了训练效果。

关键设计：PAMG模块的关键在于如何根据点标注信息生成高质量的伪mask。该模块利用物理模型，考虑了红外小目标的成像特点，自适应地调整mask的形状和大小。RPR-Net的关键在于如何有效地利用时空运动线索进行目标定位和半径回归。该网络采用了轻量级的结构，并设计了专门的损失函数，以提高训练效率和检测精度。具体的损失函数包括定位损失和半径回归损失，用于约束网络的输出。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Point-to-Mask框架在点监督设置下，能够以大大降低的标注成本接近完全监督的性能。在SIRSTD-Pixel数据集上，该方法取得了显著的检测精度提升，并且具有高效的推理速度。与现有的基于像素级标注的方法相比，该方法在标注成本和检测性能之间取得了更好的平衡。

🎯 应用场景

该研究成果可广泛应用于安防监控、自动驾驶、搜救等领域。在这些场景中，红外小目标检测至关重要，而低成本的点标注方法能够大大降低数据标注的负担，加速算法的部署和应用。未来，该方法有望进一步扩展到其他目标检测任务中，实现更高效、更低成本的智能感知。

📄 摘要（原文）

Infrared small target detection (IRSTD) methods predominantly formulate the task as pixel-level segmentation, which requires costly dense annotations and is not well suited to tiny targets with weak texture and ambiguous boundaries. To address this issue, we propose Point-to-Mask, a framework that bridges low-cost point supervision and mask-level detection through two components: a Physics-driven Adaptive Mask Generation (PAMG) module that converts point annotations into compact target masks and geometric cues, and a lightweight Radius-aware Point Regression Network (RPR-Net) that reformulates IRSTD as target center localization and effective radius regression using spatiotemporal motion cues. The two modules form a closed loop: PAMG generates pseudo masks and geometric supervision during training, while the geometric predictions of RPR-Net are fed back to PAMG for pixel-level mask recovery during inference. To facilitate systematic evaluation, we further construct SIRSTD-Pixel, a sequential dataset with refined pixel-level annotations. Experiments show that the proposed framework achieves strong pseudo-label quality, high detection accuracy, and efficient inference, approaching full-supervision performance under point-supervised settings with substantially lower annotation cost. Code and datasets will be available at: https://github.com/GaoScience/point-to-mask.

Point-to-Mask: From Arbitrary Point Annotations to Mask-Level Infrared Small Target Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理