Video Self-Distillation for Single-Image Encoders: A Step Toward Physically Plausible Perception

作者: Marcel Simon, Tae-Ho Kim, Seul-Ki Yeom

分类: cs.CV

发布日期: 2025-07-25

备注: 4 pages, 2 figures, 2 tables

期刊: 2025 International Conference on Machine Learning Workshop

💡 一句话要点

提出视频自蒸馏单图像编码器，提升物理可信感知能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion)

关键词: 视频自蒸馏 单图像编码器 自监督学习 时序信息 物理可信感知

📋 核心要点

现有的自监督学习方法主要在静态图像上训练，忽略了视频中固有的时序信息。
本文提出视频自蒸馏方法，通过预测下一帧表示，将3D空间和时间先验知识注入单图像编码器。
实验表明，在单视频上预训练后，该方法在语义分割任务上取得了显著的性能提升。

📝 摘要（中文）

本文提出了一种视频蒸馏的单图像编码器，旨在从视频中学习时序信息，从而提升视觉特征的鲁棒性。该方法训练编码器预测当前帧的下一帧表示，通过这种简单的目标函数注入了3D空间和时间先验，无需光流或跟踪。在单个2小时视频上进行预训练后，该方法在ADE20K数据集上的平均交并比（mIoU）从35.0（DoRA）提高到36.4，同时仍然可以作为图像流水线的直接替代品。实验结果表明，视频自蒸馏是一种轻量级的几何感知方法，是物理可信世界模型和物理人工智能的重要组成部分。

🔬 方法详解

问题定义：现有自监督图像编码器主要在静态图像上训练，缺乏对视频时序信息的利用，导致学习到的特征在理解3D空间和时间关系方面存在不足。这限制了其在需要物理可信感知的任务中的应用，例如机器人导航和场景理解。

核心思路：本文的核心思路是利用视频中的时序一致性，通过自蒸馏的方式，让单图像编码器学习预测下一帧的特征表示。这样，编码器就能隐式地学习到3D空间和时间先验，从而提升其对物理世界的理解能力。

技术框架：该方法的技术框架主要包含一个单图像编码器。训练时，输入当前帧图像，编码器输出特征表示，然后利用该特征表示预测下一帧的特征表示。通过最小化预测的下一帧特征表示与实际下一帧特征表示之间的差异，实现自蒸馏。

关键创新：该方法最重要的创新点在于利用视频自蒸馏的方式，将视频中的时序信息注入到单图像编码器中，而无需显式地使用光流或跟踪等技术。这种方法简单有效，能够显著提升编码器的几何感知能力。

关键设计：关键设计包括：1) 使用DINO等现有的自监督图像编码器作为基础模型；2) 使用简单的均方误差（MSE）损失函数来衡量预测的下一帧特征表示与实际下一帧特征表示之间的差异；3) 在训练过程中，对视频进行随机裁剪和数据增强，以提高模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在仅使用一个2小时视频进行预训练的情况下，该方法在ADE20K语义分割数据集上的mIoU从35.0（DoRA）提高到36.4，提升了1.4个百分点。这表明该方法能够有效地利用视频中的时序信息，提升单图像编码器的性能，并且可以作为现有图像流水线的直接替代品。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、场景理解等领域，提升智能系统对物理世界的感知能力和推理能力。通过学习物理可信的视觉表征，可以构建更可靠、更安全的智能系统，例如在复杂环境中进行自主导航的机器人，或能够准确预测交通状况的自动驾驶系统。

📄 摘要（原文）

Self-supervised image encoders such as DINO have recently gained significant interest for learning robust visual features without labels. However, most SSL methods train on static images and miss the temporal cues inherent in videos. We introduce a video-distilled single-image encoder trained to predict the next-frame representation from the current frame. This simple objective injects 3D spatial and temporal priors without optical flow or tracking. When pre-training on a single 2-hour video, our approach raises the mean Intersection-over-Union (mIoU) on ADE20K from 35.0 (DoRA) to 36.4 while remaining a drop-in replacement for image-only pipelines. Our results highlight video self-distillation as a lightweight route to geometry-aware perception an essential ingredient for physically plausible world models and Physical AI.

Video Self-Distillation for Single-Image Encoders: A Step Toward Physically Plausible Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理