Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation

📄 arXiv: 2604.10950v1 📥 PDF

作者: Jihun Kim, Hoyong Kwon, Hyeokjun Kweon, Kuk-Jin Yoon

分类: cs.CV

发布日期: 2026-04-13


💡 一句话要点

提出DiTTA,通过蒸馏辅助的测试时自适应实现无标注视频语义分割

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频语义分割 测试时自适应 知识蒸馏 时间一致性 无监督学习

📋 核心要点

  1. 全监督视频语义分割依赖大量标注数据,成本高昂;直接应用图像语义分割模型则忽略了视频中的时间连贯性。
  2. DiTTA通过蒸馏SAM2的时间分割知识到图像语义分割模型,并结合轻量级时间融合模块,实现高效的测试时自适应。
  3. 实验表明,即使仅使用少量视频片段进行自适应,DiTTA也能超越零样本方法,并在VSPW和Cityscapes数据集上取得优异性能。

📝 摘要(中文)

本文提出了一种名为DiTTA(Distillation-assisted Test-Time Adaptation,蒸馏辅助的测试时自适应)的新框架,旨在将图像语义分割(ISS)模型转化为具有时间感知能力的视频语义分割(VSS)模型,而无需标注视频数据。DiTTA通过高效的测试时自适应(TTA)实现这一目标。该方法在单次初始化阶段,将SAM2(Segment Anything Model)的时间分割知识蒸馏到ISS模型中,并辅以轻量级的时间融合模块来聚合跨帧上下文。即使在极有限的视频片段(例如,初始10%)上进行自适应,DiTTA也能实现鲁棒的泛化能力,显著优于在推理过程中重复调用SAM2的零样本优化方法。在VSPW和Cityscapes上的大量实验表明,DiTTA的有效性,其性能与全监督VSS方法相比具有竞争力甚至更优,从而为实际VSS任务提供了一种实用且无需标注的解决方案。

🔬 方法详解

问题定义:视频语义分割(VSS)旨在对视频的每一帧像素进行语义标注。现有全监督方法需要大量的像素级标注视频数据,成本高昂且限制了实际应用。直接将图像语义分割(ISS)模型应用于视频,虽然避免了标注成本,但忽略了视频帧之间的时间相关性,导致分割结果不稳定。如何利用预训练的ISS模型,在无需标注视频的情况下,实现具有时间一致性的VSS是本文要解决的问题。

核心思路:DiTTA的核心思路是通过测试时自适应(TTA)的方式,将预训练的ISS模型转化为具有时间感知能力的VSS模型。具体而言,利用SAM2等预训练模型的时间分割能力,通过知识蒸馏的方式将时间信息传递给ISS模型,并使用轻量级的时间融合模块来增强模型对时间上下文的理解。这样可以在无需标注数据的情况下,提升VSS的性能和时间一致性。

技术框架:DiTTA框架主要包含两个阶段:初始化阶段和自适应阶段。在初始化阶段,首先利用SAM2对少量视频帧进行分割,然后将SAM2的分割结果作为教师信号,通过知识蒸馏的方式训练ISS模型,使其具备初步的时间感知能力。在自适应阶段,使用轻量级的时间融合模块对相邻帧的分割结果进行融合,进一步提高分割结果的时间一致性。整个过程在测试时进行,无需额外的标注数据。

关键创新:DiTTA的关键创新在于利用知识蒸馏的方式,将SAM2等预训练模型的时间分割能力传递给ISS模型。与直接使用SAM2进行分割相比,DiTTA更加高效,且能够利用ISS模型已有的语义知识。与传统的TTA方法相比,DiTTA引入了知识蒸馏,能够更有效地利用少量视频片段进行自适应。

关键设计:DiTTA的关键设计包括:1) 使用SAM2生成伪标签进行知识蒸馏,损失函数可以是交叉熵损失或Dice损失等;2) 设计轻量级的时间融合模块,例如使用卷积神经网络或循环神经网络对相邻帧的特征进行融合;3) 在自适应阶段,可以使用熵最小化等方法来进一步提高分割结果的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiTTA在VSPW和Cityscapes数据集上进行了广泛的实验,结果表明,即使仅使用10%的初始视频片段进行自适应,DiTTA也能显著优于零样本方法。在某些情况下,DiTTA的性能甚至可以与全监督VSS方法相媲美,证明了其在实际应用中的潜力。

🎯 应用场景

DiTTA可应用于自动驾驶、视频监控、机器人导航等领域,在这些场景中,准确且时间一致的视频语义分割至关重要。该方法无需标注数据,降低了部署成本,加速了相关技术在实际场景中的应用。未来,可以进一步探索如何将DiTTA与其他自监督学习方法相结合,以进一步提高VSS的性能。

📄 摘要(原文)

Fully supervised Video Semantic Segmentation (VSS) relies heavily on densely annotated video data, limiting practical applicability. Alternatively, applying pre-trained Image Semantic Segmentation (ISS) models frame-by-frame avoids annotation costs but ignores crucial temporal coherence. Recent foundation models such as SAM2 enable high-quality mask propagation yet remain impractical for direct VSS due to limited semantic understanding and computational overhead. In this paper, we propose DiTTA (Distillation-assisted Test-Time Adaptation), a novel framework that converts an ISS model into a temporally-aware VSS model through efficient test-time adaptation (TTA), without annotated videos. DiTTA distills SAM2's temporal segmentation knowledge into the ISS model during a brief, single-pass initialization phase, complemented by a lightweight temporal fusion module to aggregate cross-frame context. Crucially, DiTTA achieves robust generalization even when adapting with highly limited partial video snippets (e.g., initial 10%), significantly outperforming zero-shot refinement approaches that repeatedly invoke SAM2 during inference. Extensive experiments on VSPW and Cityscapes demonstrate DiTTA's effectiveness, achieving competitive or superior performance relative to fully-supervised VSS methods, thus providing a practical and annotation-free solution for real-world VSS tasks.