Self-Improving 4D Perception via Self-Distillation

作者: Nan Huang, Pengcheng Yu, Weijia Zeng, James M. Rehg, Angjoo Kanazawa, Haiwen Feng, Qianqian Wang

分类: cs.CV

发布日期: 2026-04-09

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出SelfEvo自蒸馏框架，无需标注持续提升多视角4D重建模型性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation)

关键词: 4D重建 自监督学习 自蒸馏 多视角重建 动态场景 深度估计 相机估计

📋 核心要点

现有4D重建模型依赖大量标注数据，成本高昂且难以扩展到动态场景。
SelfEvo利用时空上下文不对称性进行自蒸馏，无需额外标注即可提升模型性能。
实验表明，SelfEvo在多个数据集上显著提升了深度和相机估计精度，尤其在动态场景中。

📝 摘要（中文）

大规模多视角重建模型取得了显著进展，但现有方法大多依赖于带有ground-truth 3D/4D标注的完全监督训练。这种标注成本高昂，尤其是在动态场景中更为稀缺，限制了模型的可扩展性。我们提出了SelfEvo，一个自提升框架，它使用未标注的视频持续改进预训练的多视角重建模型。SelfEvo引入了一种利用时空上下文不对称性的自蒸馏方案，从而在没有外部标注的情况下，实现基于学习的4D感知自提升。我们系统地研究了使自提升有效的各种设计选择，包括损失信号、不对称性的形式和其他训练策略。在涵盖不同数据集和领域的八个基准测试中，SelfEvo始终如一地改进了预训练的基线模型，并推广到不同的基础模型（例如VGGT和$π^3$），在动态场景中获得了显著的收益。总的来说，SelfEvo在视频深度估计方面实现了高达36.5%的相对改进，在相机估计方面实现了20.1%的相对改进，而没有使用任何标记数据。

🔬 方法详解

问题定义：现有基于学习的4D感知方法严重依赖于大规模的3D/4D标注数据，而这些数据的获取成本非常高，尤其是在动态场景下。这限制了模型的泛化能力和在实际场景中的应用。

核心思路：SelfEvo的核心思想是利用视频中的时空上下文信息，通过自蒸馏的方式，让模型自己从无标注数据中学习并提升性能。关键在于设计一种有效的自蒸馏策略，使得模型能够从自身的预测中提取有用的信息，并不断优化。

技术框架：SelfEvo框架主要包含以下几个阶段：1) 使用预训练的多视角重建模型作为初始模型。2) 利用未标注的视频数据进行训练。3) 通过时空上下文不对称性生成teacher信号，例如利用相邻帧的信息作为监督信号。4) 使用自蒸馏损失函数，让模型学习teacher信号，从而提升自身的性能。5) 迭代训练，不断提升模型性能。

关键创新：SelfEvo的关键创新在于提出了基于时空上下文不对称性的自蒸馏方法。传统蒸馏方法通常需要一个预先训练好的teacher模型，而SelfEvo通过巧妙地利用视频的时序信息，将模型自身的预测结果作为teacher信号，实现了无需外部标注的自提升。这种方法有效地解决了动态场景下标注数据稀缺的问题。

关键设计：SelfEvo的关键设计包括：1) 选择合适的时空上下文不对称性形式，例如使用相邻帧的深度信息作为监督信号。2) 设计合适的自蒸馏损失函数，例如L1损失或Smooth L1损失。3) 采用合适的训练策略，例如warm-up策略和学习率衰减策略。4) 探索不同的网络结构，例如VGGT和$π^3$。

🖼️ 关键图片

📊 实验亮点

SelfEvo在八个基准测试中均取得了显著的性能提升，尤其是在动态场景中。在视频深度估计方面，SelfEvo实现了高达36.5%的相对改进；在相机估计方面，实现了20.1%的相对改进。这些提升是在没有任何标注数据的情况下实现的，充分证明了SelfEvo的有效性和潜力。

🎯 应用场景

SelfEvo具有广泛的应用前景，例如在自动驾驶、机器人导航、虚拟现实和增强现实等领域。它可以用于提升动态场景下的3D重建和感知能力，从而提高系统的鲁棒性和准确性。此外，SelfEvo的自监督学习方法可以降低对标注数据的依赖，从而降低开发成本，加速相关技术的落地。

📄 摘要（原文）

Large-scale multi-view reconstruction models have made remarkable progress, but most existing approaches still rely on fully supervised training with ground-truth 3D/4D annotations. Such annotations are expensive and particularly scarce for dynamic scenes, limiting scalability. We propose SelfEvo, a self-improving framework that continually improves pretrained multi-view reconstruction models using unlabeled videos. SelfEvo introduces a self-distillation scheme using spatiotemporal context asymmetry, enabling self-improvement for learning-based 4D perception without external annotations. We systematically study design choices that make self-improvement effective, including loss signals, forms of asymmetry, and other training strategies. Across eight benchmarks spanning diverse datasets and domains, SelfEvo consistently improves pretrained baselines and generalizes across base models (e.g. VGGT and $π^3$), with significant gains on dynamic scenes. Overall, SelfEvo achieves up to 36.5% relative improvement in video depth estimation and 20.1% in camera estimation, without using any labeled data. Project Page: https://self-evo.github.io/.

Self-Improving 4D Perception via Self-Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理