MANTA: Physics-Informed Generalized Underwater Object Tracking

📄 arXiv: 2511.23405v1 📥 PDF

作者: Suhas Srinath, Hemang Jamadagni, Aditya Chadrasekar, Prathosh AP

分类: cs.CV

发布日期: 2025-11-28

备注: Accepted to the IEEE/CVF WACV 2026


💡 一句话要点

MANTA:提出物理信息引导的水下通用目标跟踪框架,提升水下环境适应性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 水下目标跟踪 物理信息引导 对比学习 目标重识别 水下视觉

📋 核心要点

  1. 现有跟踪器在陆地数据上训练,难以应对水下环境特有的光线衰减和散射导致的图像退化。
  2. MANTA框架融合了物理信息,通过双正对比学习和物理信息引导的关联算法,增强了对水下失真的鲁棒性。
  3. 实验表明,MANTA在多个水下基准测试中取得了显著的性能提升,成功AUC提高了高达6%。

📝 摘要(中文)

水下目标跟踪极具挑战,波长相关的衰减和散射严重扭曲了不同深度和水况下的外观。现有在陆地数据上训练的跟踪器无法泛化到这些物理驱动的退化。我们提出了MANTA,一个物理信息引导的框架,它将表征学习与跟踪设计相结合,用于水下场景。我们提出了一种双正对比学习策略,将时间一致性与Beer-Lambert增强相结合,以产生对时间和水下失真都具有鲁棒性的特征。我们进一步引入了一个多阶段流程,用一个物理信息引导的二级关联算法来增强基于运动的跟踪,该算法集成了几何一致性和外观相似性,用于在遮挡和漂移下的重识别。为了补充标准的IoU指标,我们提出了中心-尺度一致性(CSC)和几何对齐得分(GAS)来评估几何保真度。在四个水下基准(WebUOT-1M、UOT32、UTB180、UWCOT220)上的实验表明,MANTA实现了最先进的性能,成功AUC提高了高达6%,同时确保了稳定的长期通用水下跟踪和高效的运行时间。

🔬 方法详解

问题定义:水下目标跟踪面临的主要问题是由于水的光学特性(如吸收和散射)导致的目标外观变化。现有的跟踪算法,尤其是那些在陆地图像上训练的算法,无法很好地泛化到水下环境,导致跟踪精度下降,容易丢失目标。此外,水下环境的低能见度、光照不均以及生物遮挡等因素也增加了跟踪的难度。

核心思路:MANTA的核心思路是将水下环境的物理特性融入到跟踪算法的设计中。具体来说,它利用Beer-Lambert定律来模拟水下光线衰减,并以此作为数据增强的手段,使模型能够学习到对水下失真具有鲁棒性的特征表示。此外,MANTA还结合了几何一致性和外观相似性来进行目标重识别,从而提高在遮挡和漂移情况下的跟踪性能。

技术框架:MANTA的整体框架是一个多阶段的跟踪流程。首先,使用一个基于运动的跟踪器来初步估计目标的位置。然后,使用一个物理信息引导的二级关联算法来对目标进行重识别。该算法综合考虑了几何一致性(通过中心-尺度一致性CSC和几何对齐得分GAS来衡量)和外观相似性,从而在遮挡和漂移情况下保持跟踪的稳定性。整个框架还包括一个双正对比学习模块,用于学习对水下失真具有鲁棒性的特征表示。

关键创新:MANTA的关键创新在于其物理信息引导的设计。它不仅仅是简单地将现有的跟踪算法应用于水下环境,而是将水下环境的物理特性(如光线衰减)融入到算法的设计中,从而提高了算法的泛化能力和鲁棒性。双正对比学习策略和物理信息引导的二级关联算法是两个重要的技术创新点。

关键设计:双正对比学习策略利用时间一致性和Beer-Lambert增强来生成正样本对,从而训练模型学习对时间和水下失真都具有鲁棒性的特征。中心-尺度一致性(CSC)和几何对齐得分(GAS)是两个新的几何一致性度量指标,用于评估跟踪结果的几何保真度。物理信息引导的二级关联算法使用几何一致性和外观相似性的加权组合来进行目标重识别,权重参数需要根据具体的水下环境进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MANTA在WebUOT-1M、UOT32、UTB180和UWCOT220四个水下基准测试中均取得了state-of-the-art的性能。相较于现有方法,MANTA的成功AUC指标提升高达6%。实验结果表明,MANTA能够有效地应对水下环境中的光线衰减、散射和遮挡等挑战,实现稳定且长期的水下目标跟踪。

🎯 应用场景

MANTA在水下机器人、水下考古、海洋生物研究、水下基础设施维护等领域具有广泛的应用前景。它可以帮助水下机器人自主导航和目标跟踪,提高水下考古的效率和精度,辅助海洋生物学家研究海洋生物的行为,以及用于水下管道和结构的检测和维护。该研究的成果有助于推动水下视觉技术的发展,并为相关领域提供更可靠的工具。

📄 摘要(原文)

Underwater object tracking is challenging due to wavelength dependent attenuation and scattering, which severely distort appearance across depths and water conditions. Existing trackers trained on terrestrial data fail to generalize to these physics-driven degradations. We present MANTA, a physics-informed framework integrating representation learning with tracking design for underwater scenarios. We propose a dual-positive contrastive learning strategy coupling temporal consistency with Beer-Lambert augmentations to yield features robust to both temporal and underwater distortions. We further introduce a multi-stage pipeline augmenting motion-based tracking with a physics-informed secondary association algorithm that integrates geometric consistency and appearance similarity for re-identification under occlusion and drift. To complement standard IoU metrics, we propose Center-Scale Consistency (CSC) and Geometric Alignment Score (GAS) to assess geometric fidelity. Experiments on four underwater benchmarks (WebUOT-1M, UOT32, UTB180, UWCOT220) show that MANTA achieves state-of-the-art performance, improving Success AUC by up to 6 percent, while ensuring stable long-term generalized underwater tracking and efficient runtime.