Turbulence-Robust Dynamic Object Segmentation with Multi-Signal Priors and SAM2 Refinement

作者: Bolian Peng, Ying Tang, Xu Liu, Long Sun, Xiaoqiang Lu

分类: cs.CV

发布日期: 2026-05-28

💡 一句话要点

提出一种基于多信号先验和SAM2优化的湍流鲁棒动态目标分割方法

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 动态目标分割 湍流环境 多信号融合 免训练 运动估计 语义先验 背景建模

📋 核心要点

现有动态目标分割方法在湍流环境中表现不佳，因为湍流会引入伪运动和模糊，导致运动线索不可靠。
该方法利用多信号融合，结合运动估计、语义先验和背景建模，以提高在湍流环境下的分割鲁棒性。
该方法无需训练，完全在推理模式下运行，并在DOST挑战赛中取得了0.425041的mIoU和0.457206的mDice。

📝 摘要（中文）

本技术报告介绍了我们在CVPR 2026 UG2+挑战赛Track 3：湍流中动态目标分割（DOST）中的解决方案。我们设计了一个免训练的多信号分割流程，该流程结合了预训练的运动估计、自监督语义先验、背景异常建模、手动校准的提议融合以及基于SAM2的掩码细化。该方法使用RAFT进行密集运动响应，DINOv2进行语义对象先验，ViBe进行免训练背景建模，以及预训练的SAM2进行框提示掩码细化。我们的系统完全在推理模式下运行，而不是优化端到端分割网络。这种设计适用于DOST设置，因为严重的 атмосферная 湍流会产生伪运动、模糊和间歇性目标可见性，从而使单个运动线索不可靠。最终提交的掩码由官方排行榜评估，报告的mIoU为0.425041，mDice为0.457206。由于没有执行特定于任务的模型训练或微调，因此更强的学习时间关联、自适应提议选择或特定于任务的适应可能会进一步改进系统。

🔬 方法详解

问题定义：论文旨在解决在存在严重大气湍流的情况下，动态目标分割的鲁棒性问题。现有方法在湍流环境下容易受到伪运动、模糊和目标间歇性可见性的影响，导致分割性能下降。传统的端到端分割网络需要大量训练数据，且难以泛化到湍流环境。

核心思路：论文的核心思路是利用多信号先验信息，结合运动估计、语义先验和背景建模，以提高分割的鲁棒性。通过融合来自不同来源的信息，可以减少对单一运动线索的依赖，从而更好地应对湍流带来的挑战。同时，采用免训练的方式，避免了对特定湍流数据的依赖。

技术框架：整体框架包含以下几个主要模块：1) 使用RAFT进行密集运动估计；2) 使用DINOv2提取语义对象先验；3) 使用ViBe进行免训练背景建模；4) 手动校准的提议融合；5) 使用预训练的SAM2进行掩码细化。这些模块协同工作，最终生成动态目标的分割掩码。

关键创新：最重要的技术创新在于多信号融合策略和免训练的设计。与传统的端到端分割网络不同，该方法不依赖于特定任务的训练数据，而是利用预训练模型和手工设计的规则进行分割。这种方法更具泛化能力，并且能够更好地应对湍流环境带来的挑战。

关键设计：该方法的关键设计包括：1) 使用RAFT进行精确的运动估计，为后续的分割提供基础；2) 使用DINOv2提取语义先验，帮助区分目标和背景；3) 使用ViBe进行背景建模，检测异常区域；4) 使用SAM2进行掩码细化，提高分割的精度。此外，手动校准的提议融合策略也至关重要，它能够有效地整合来自不同模块的信息。

🖼️ 关键图片

📊 实验亮点

该方法在CVPR 2026 UG2+挑战赛Track 3中取得了显著成果，mIoU达到0.425041，mDice达到0.457206。值得注意的是，该方法完全在推理模式下运行，无需任何特定任务的训练或微调，这表明其具有良好的泛化能力和鲁棒性。未来的工作可以通过引入更强的时序关联、自适应提议选择或特定任务的自适应来进一步提升性能。

🎯 应用场景

该研究成果可应用于恶劣天气条件下的目标检测与跟踪，例如航空航天、自动驾驶、安防监控等领域。在这些场景中，大气湍流等因素会严重影响图像质量，导致传统方法失效。该方法通过多信号融合和免训练设计，提高了在复杂环境下的鲁棒性，具有重要的实际应用价值和潜在的商业前景。

📄 摘要（原文）

This technical report presents our solution for the CVPR 2026 UG2+ Challenge Track 3: Dynamic Object Segmentation in Turbulence (DOST). We design a training-free multi-signal segmentation pipeline that combines pretrained motion estimation, self-supervised semantic priors, background anomaly modeling, manually calibrated proposal fusion, and SAM2-based mask refinement. The method uses RAFT for dense motion responses, DINOv2 for semantic objectness priors, ViBe for training-free background modeling, and pretrained SAM2 for box-prompt mask refinement. Instead of optimizing an end-to-end segmentation network, our system operates entirely in inference mode. This design is suitable for the DOST setting, where severe atmospheric turbulence produces pseudo-motion, blur, and intermittent target visibility, making a single motion cue unreliable. The final submitted masks are evaluated by the official leaderboard, which reports 0.425041 mIoU and 0.457206 mDice. Since no task-specific model training or fine-tuning is performed, stronger learned temporal association, adaptive proposal selection, or task-specific adaptation may further improve the system.

Turbulence-Robust Dynamic Object Segmentation with Multi-Signal Priors and SAM2 Refinement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理