Turbulence-Robust Dynamic Object Segmentation with Multi-Signal Priors and SAM2 Refinement

📄 arXiv: 2605.29292v1 📥 PDF

作者: Bolian Peng, Ying Tang, Xu Liu, Long Sun, Xiaoqiang Lu

分类: cs.CV

发布日期: 2026-05-28


💡 一句话要点

提出一种基于多信号先验和SAM2优化的湍流鲁棒动态目标分割方法

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 动态目标分割 湍流环境 多信号融合 免训练 运动估计 语义先验 背景建模

📋 核心要点

  1. 现有动态目标分割方法在湍流环境中表现不佳,因为湍流会引入伪运动和模糊,导致运动线索不可靠。
  2. 该方法利用多信号融合,结合运动估计、语义先验和背景建模,以提高在湍流环境下的分割鲁棒性。
  3. 该方法无需训练,完全在推理模式下运行,并在DOST挑战赛中取得了0.425041的mIoU和0.457206的mDice。

📝 摘要(中文)

本技术报告介绍了我们在CVPR 2026 UG2+挑战赛Track 3:湍流中动态目标分割(DOST)中的解决方案。我们设计了一个免训练的多信号分割流程,该流程结合了预训练的运动估计、自监督语义先验、背景异常建模、手动校准的提议融合以及基于SAM2的掩码细化。该方法使用RAFT进行密集运动响应,DINOv2进行语义对象先验,ViBe进行免训练背景建模,以及预训练的SAM2进行框提示掩码细化。我们的系统完全在推理模式下运行,而不是优化端到端分割网络。这种设计适用于DOST设置,因为严重的 атмосферная 湍流会产生伪运动、模糊和间歇性目标可见性,从而使单个运动线索不可靠。最终提交的掩码由官方排行榜评估,报告的mIoU为0.425041,mDice为0.457206。由于没有执行特定于任务的模型训练或微调,因此更强的学习时间关联、自适应提议选择或特定于任务的适应可能会进一步改进系统。

🔬 方法详解

问题定义:论文旨在解决在存在严重大气湍流的情况下,动态目标分割的鲁棒性问题。现有方法在湍流环境下容易受到伪运动、模糊和目标间歇性可见性的影响,导致分割性能下降。传统的端到端分割网络需要大量训练数据,且难以泛化到湍流环境。

核心思路:论文的核心思路是利用多信号先验信息,结合运动估计、语义先验和背景建模,以提高分割的鲁棒性。通过融合来自不同来源的信息,可以减少对单一运动线索的依赖,从而更好地应对湍流带来的挑战。同时,采用免训练的方式,避免了对特定湍流数据的依赖。

技术框架:整体框架包含以下几个主要模块:1) 使用RAFT进行密集运动估计;2) 使用DINOv2提取语义对象先验;3) 使用ViBe进行免训练背景建模;4) 手动校准的提议融合;5) 使用预训练的SAM2进行掩码细化。这些模块协同工作,最终生成动态目标的分割掩码。

关键创新:最重要的技术创新在于多信号融合策略和免训练的设计。与传统的端到端分割网络不同,该方法不依赖于特定任务的训练数据,而是利用预训练模型和手工设计的规则进行分割。这种方法更具泛化能力,并且能够更好地应对湍流环境带来的挑战。

关键设计:该方法的关键设计包括:1) 使用RAFT进行精确的运动估计,为后续的分割提供基础;2) 使用DINOv2提取语义先验,帮助区分目标和背景;3) 使用ViBe进行背景建模,检测异常区域;4) 使用SAM2进行掩码细化,提高分割的精度。此外,手动校准的提议融合策略也至关重要,它能够有效地整合来自不同模块的信息。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

该方法在CVPR 2026 UG2+挑战赛Track 3中取得了显著成果,mIoU达到0.425041,mDice达到0.457206。值得注意的是,该方法完全在推理模式下运行,无需任何特定任务的训练或微调,这表明其具有良好的泛化能力和鲁棒性。未来的工作可以通过引入更强的时序关联、自适应提议选择或特定任务的自适应来进一步提升性能。

🎯 应用场景

该研究成果可应用于恶劣天气条件下的目标检测与跟踪,例如航空航天、自动驾驶、安防监控等领域。在这些场景中,大气湍流等因素会严重影响图像质量,导致传统方法失效。该方法通过多信号融合和免训练设计,提高了在复杂环境下的鲁棒性,具有重要的实际应用价值和潜在的商业前景。

📄 摘要(原文)

This technical report presents our solution for the CVPR 2026 UG2+ Challenge Track 3: Dynamic Object Segmentation in Turbulence (DOST). We design a training-free multi-signal segmentation pipeline that combines pretrained motion estimation, self-supervised semantic priors, background anomaly modeling, manually calibrated proposal fusion, and SAM2-based mask refinement. The method uses RAFT for dense motion responses, DINOv2 for semantic objectness priors, ViBe for training-free background modeling, and pretrained SAM2 for box-prompt mask refinement. Instead of optimizing an end-to-end segmentation network, our system operates entirely in inference mode. This design is suitable for the DOST setting, where severe atmospheric turbulence produces pseudo-motion, blur, and intermittent target visibility, making a single motion cue unreliable. The final submitted masks are evaluated by the official leaderboard, which reports 0.425041 mIoU and 0.457206 mDice. Since no task-specific model training or fine-tuning is performed, stronger learned temporal association, adaptive proposal selection, or task-specific adaptation may further improve the system.