Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation

作者: Jihun Kim, Hoyong Kwon, Hyeokjun Kweon, Kuk-Jin Yoon

分类: cs.CV

发布日期: 2026-04-13

💡 一句话要点

提出DiTTA，通过蒸馏辅助的测试时自适应实现无标注视频语义分割

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频语义分割 测试时自适应 知识蒸馏 时间一致性 无监督学习

📋 核心要点

全监督视频语义分割依赖大量标注数据，成本高昂；直接应用图像语义分割模型则忽略了视频中的时间连贯性。
DiTTA通过蒸馏SAM2的时间分割知识到图像语义分割模型，并结合轻量级时间融合模块，实现高效的测试时自适应。
实验表明，即使仅使用少量视频片段进行自适应，DiTTA也能超越零样本方法，并在VSPW和Cityscapes数据集上取得优异性能。

📝 摘要（中文）

本文提出了一种名为DiTTA（Distillation-assisted Test-Time Adaptation，蒸馏辅助的测试时自适应）的新框架，旨在将图像语义分割（ISS）模型转化为具有时间感知能力的视频语义分割（VSS）模型，而无需标注视频数据。DiTTA通过高效的测试时自适应（TTA）实现这一目标。该方法在单次初始化阶段，将SAM2（Segment Anything Model）的时间分割知识蒸馏到ISS模型中，并辅以轻量级的时间融合模块来聚合跨帧上下文。即使在极有限的视频片段（例如，初始10%）上进行自适应，DiTTA也能实现鲁棒的泛化能力，显著优于在推理过程中重复调用SAM2的零样本优化方法。在VSPW和Cityscapes上的大量实验表明，DiTTA的有效性，其性能与全监督VSS方法相比具有竞争力甚至更优，从而为实际VSS任务提供了一种实用且无需标注的解决方案。

🔬 方法详解

问题定义：视频语义分割（VSS）旨在对视频的每一帧像素进行语义标注。现有全监督方法需要大量的像素级标注视频数据，成本高昂且限制了实际应用。直接将图像语义分割（ISS）模型应用于视频，虽然避免了标注成本，但忽略了视频帧之间的时间相关性，导致分割结果不稳定。如何利用预训练的ISS模型，在无需标注视频的情况下，实现具有时间一致性的VSS是本文要解决的问题。

核心思路：DiTTA的核心思路是通过测试时自适应（TTA）的方式，将预训练的ISS模型转化为具有时间感知能力的VSS模型。具体而言，利用SAM2等预训练模型的时间分割能力，通过知识蒸馏的方式将时间信息传递给ISS模型，并使用轻量级的时间融合模块来增强模型对时间上下文的理解。这样可以在无需标注数据的情况下，提升VSS的性能和时间一致性。

技术框架：DiTTA框架主要包含两个阶段：初始化阶段和自适应阶段。在初始化阶段，首先利用SAM2对少量视频帧进行分割，然后将SAM2的分割结果作为教师信号，通过知识蒸馏的方式训练ISS模型，使其具备初步的时间感知能力。在自适应阶段，使用轻量级的时间融合模块对相邻帧的分割结果进行融合，进一步提高分割结果的时间一致性。整个过程在测试时进行，无需额外的标注数据。

关键创新：DiTTA的关键创新在于利用知识蒸馏的方式，将SAM2等预训练模型的时间分割能力传递给ISS模型。与直接使用SAM2进行分割相比，DiTTA更加高效，且能够利用ISS模型已有的语义知识。与传统的TTA方法相比，DiTTA引入了知识蒸馏，能够更有效地利用少量视频片段进行自适应。

关键设计：DiTTA的关键设计包括：1) 使用SAM2生成伪标签进行知识蒸馏，损失函数可以是交叉熵损失或Dice损失等；2) 设计轻量级的时间融合模块，例如使用卷积神经网络或循环神经网络对相邻帧的特征进行融合；3) 在自适应阶段，可以使用熵最小化等方法来进一步提高分割结果的质量。

🖼️ 关键图片

📊 实验亮点

DiTTA在VSPW和Cityscapes数据集上进行了广泛的实验，结果表明，即使仅使用10%的初始视频片段进行自适应，DiTTA也能显著优于零样本方法。在某些情况下，DiTTA的性能甚至可以与全监督VSS方法相媲美，证明了其在实际应用中的潜力。

🎯 应用场景

DiTTA可应用于自动驾驶、视频监控、机器人导航等领域，在这些场景中，准确且时间一致的视频语义分割至关重要。该方法无需标注数据，降低了部署成本，加速了相关技术在实际场景中的应用。未来，可以进一步探索如何将DiTTA与其他自监督学习方法相结合，以进一步提高VSS的性能。

📄 摘要（原文）

Fully supervised Video Semantic Segmentation (VSS) relies heavily on densely annotated video data, limiting practical applicability. Alternatively, applying pre-trained Image Semantic Segmentation (ISS) models frame-by-frame avoids annotation costs but ignores crucial temporal coherence. Recent foundation models such as SAM2 enable high-quality mask propagation yet remain impractical for direct VSS due to limited semantic understanding and computational overhead. In this paper, we propose DiTTA (Distillation-assisted Test-Time Adaptation), a novel framework that converts an ISS model into a temporally-aware VSS model through efficient test-time adaptation (TTA), without annotated videos. DiTTA distills SAM2's temporal segmentation knowledge into the ISS model during a brief, single-pass initialization phase, complemented by a lightweight temporal fusion module to aggregate cross-frame context. Crucially, DiTTA achieves robust generalization even when adapting with highly limited partial video snippets (e.g., initial 10%), significantly outperforming zero-shot refinement approaches that repeatedly invoke SAM2 during inference. Extensive experiments on VSPW and Cityscapes demonstrate DiTTA's effectiveness, achieving competitive or superior performance relative to fully-supervised VSS methods, thus providing a practical and annotation-free solution for real-world VSS tasks.

Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理