EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

📄 arXiv: 2603.09385v1 📥 PDF

作者: Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong

分类: cs.CV

发布日期: 2026-03-10


💡 一句话要点

EventVGGT:探索跨模态蒸馏,实现事件相机一致性深度估计

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 深度估计 跨模态蒸馏 视觉几何基础模型 时间一致性

📋 核心要点

  1. 现有基于事件相机的深度估计方法忽略了事件数据的时间连续性,导致深度预测在时间上不一致。
  2. EventVGGT通过跨模态蒸馏,将视觉几何基础Transformer(VGGT)的时空和多视角几何先验知识迁移到事件域。
  3. 实验表明,EventVGGT显著优于现有方法,在EventScape数据集上将深度误差降低了53%以上,并具有良好的泛化能力。

📝 摘要(中文)

事件相机对高速运动和极端光照具有卓越的敏感性,使得基于事件的单目深度估计成为在挑战性条件下实现鲁棒3D感知的有前景的方法。然而,密集深度标注的稀缺严重阻碍了这一领域的发展。虽然最近的无标注方法通过从视觉基础模型(VFMs)中提取知识来缓解这个问题,但仍然存在一个关键限制:它们将事件流处理为独立的帧。由于忽略了事件数据的内在时间连续性,这些方法未能利用VFMs中编码的丰富时间先验,最终导致时间上不一致且不太准确的深度预测。为了解决这个问题,我们引入了EventVGGT,这是一个新颖的框架,它明确地将事件流建模为连贯的视频序列。据我们所知,我们是第一个将视觉几何基础Transformer(VGGT)中的时空和多视角几何先验提炼到事件域中的。我们通过一个全面的三级蒸馏策略来实现这一点:(i)跨模态特征混合(CMFM)通过融合RGB和事件特征来生成辅助深度预测,从而弥合输出层面的模态差距;(ii)时空特征蒸馏(STFD)在特征层面提炼VGGT强大的时空表示;(iii)时间一致性蒸馏(TCD)通过对齐帧间深度变化,在时间层面强制执行跨帧一致性。大量的实验表明,EventVGGT始终优于现有方法——在EventScape上将30米处的绝对平均深度误差降低了53%以上(从2.30到1.06)——同时在未见过的DENSE和MVSEC数据集上表现出强大的零样本泛化能力。

🔬 方法详解

问题定义:论文旨在解决基于事件相机的单目深度估计问题,现有方法将事件流视为独立帧,忽略了事件数据的时间连续性,导致深度预测结果在时间上不一致,精度较低。同时,缺乏密集的深度标注数据也限制了该领域的发展。

核心思路:论文的核心思路是通过跨模态蒸馏,将视觉几何基础模型(VGGT)中蕴含的时空和多视角几何先验知识迁移到事件域。通过将事件流建模为连贯的视频序列,并利用VGGT的强大表示能力,从而提升深度估计的准确性和时间一致性。

技术框架:EventVGGT框架包含三个主要模块:跨模态特征混合(CMFM)、时空特征蒸馏(STFD)和时间一致性蒸馏(TCD)。CMFM通过融合RGB和事件特征生成辅助深度预测,弥合模态差距。STFD在特征层面提炼VGGT的时空表示。TCD通过对齐帧间深度变化,强制执行跨帧一致性。整体流程是先通过CMFM生成辅助深度,然后利用STFD和TCD进行知识蒸馏,最终得到更准确和一致的深度估计结果。

关键创新:该论文的关键创新在于首次将视觉几何基础模型(VGGT)的时空和多视角几何先验知识引入到基于事件相机的深度估计中。通过显式地建模事件流的时间连续性,并设计了三级蒸馏策略,有效地利用了VGGT的强大表示能力,从而显著提升了深度估计的性能。

关键设计:CMFM模块通过一个特征融合网络将RGB和事件特征进行融合,生成辅助深度预测。STFD模块使用对比学习损失,鼓励事件特征与VGGT提取的特征具有相似的表示。TCD模块使用平滑损失,约束相邻帧之间的深度变化,从而保证时间一致性。损失函数的设计是保证蒸馏效果的关键。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EventVGGT在EventScape数据集上取得了显著的性能提升,将30米处的绝对平均深度误差降低了53%以上(从2.30到1.06)。此外,该方法在未见过的DENSE和MVSEC数据集上表现出强大的零样本泛化能力,表明其具有良好的鲁棒性和适应性。实验结果充分验证了该方法在基于事件相机的深度估计方面的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在光照条件恶劣或高速运动场景下,事件相机能够提供更可靠的视觉信息。通过提升基于事件相机的深度估计精度,可以增强这些系统在复杂环境下的感知能力,提高其鲁棒性和安全性。未来,该技术有望在智能交通、工业自动化等领域发挥重要作用。

📄 摘要(原文)

Event cameras offer superior sensitivity to high-speed motion and extreme lighting, making event-based monocular depth estimation a promising approach for robust 3D perception in challenging conditions. However, progress is severely hindered by the scarcity of dense depth annotations. While recent annotation-free approaches mitigate this by distilling knowledge from Vision Foundation Models (VFMs), a critical limitation persists: they process event streams as independent frames. By neglecting the inherent temporal continuity of event data, these methods fail to leverage the rich temporal priors encoded in VFMs, ultimately yielding temporally inconsistent and less accurate depth predictions. To address this, we introduce EventVGGT, a novel framework that explicitly models the event stream as a coherent video sequence. To the best of our knowledge, we are the first to distill spatio-temporal and multi-view geometric priors from the Visual Geometry Grounded Transformer (VGGT) into the event domain. We achieve this via a comprehensive tri-level distillation strategy: (i) Cross-Modal Feature Mixture (CMFM) bridges the modality gap at the output level by fusing RGB and event features to generate auxiliary depth predictions; (ii) Spatio-Temporal Feature Distillation (STFD) distills VGGT's powerful spatio-temporal representations at the feature level; and (iii) Temporal Consistency Distillation (TCD) enforces cross-frame coherence at the temporal level by aligning inter-frame depth changes. Extensive experiments demonstrate that EventVGGT consistently outperforms existing methods -- reducing the absolute mean depth error at 30m by over 53\% on EventScape (from 2.30 to 1.06) -- while exhibiting robust zero-shot generalization on the unseen DENSE and MVSEC datasets.