Depth AnyEvent: A Cross-Modal Distillation Paradigm for Event-Based Monocular Depth Estimation

📄 arXiv: 2509.15224v1 📥 PDF

作者: Luca Bartolomei, Enrico Mannocci, Fabio Tosi, Matteo Poggi, Stefano Mattoccia

分类: cs.CV

发布日期: 2025-09-18

备注: ICCV 2025. Code: https://github.com/bartn8/depthanyevent/ Project Page: https://bartn8.github.io/depthanyevent/


💡 一句话要点

提出基于跨模态蒸馏的事件相机单目深度估计方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 单目深度估计 跨模态蒸馏 视觉基础模型 深度学习 无监督学习

📋 核心要点

  1. 现有事件相机深度估计方法受限于缺乏大规模带深度标注的数据集,训练成本高昂。
  2. 论文提出跨模态蒸馏范式,利用视觉基础模型生成事件数据的密集代理深度标签。
  3. 实验表明,该方法在合成和真实数据集上均表现出色,无需昂贵的深度标注即可达到SOTA。

📝 摘要(中文)

事件相机能够捕捉稀疏但高时间分辨率的视觉信息,使其特别适用于高速运动和光照剧烈变化等具有挑战性的环境。然而,缺乏带有密集真值深度标注的大型数据集阻碍了基于学习的事件数据单目深度估计。为了解决这个限制,我们提出了一种跨模态蒸馏范式,利用视觉基础模型(VFM)生成密集的代理标签。我们的策略需要与RGB帧空间对齐的事件流,即使是现成的设置,并利用大规模VFM的鲁棒性。此外,我们建议调整VFM,无论是像Depth Anything v2 (DAv2)这样的原始模型,还是从中衍生出一种新的循环架构,以从单目事件相机推断深度。我们使用合成和真实世界数据集评估了我们的方法,证明了i) 与完全监督方法相比,我们的跨模态范式实现了具有竞争力的性能,而无需昂贵的深度标注,以及ii) 我们基于VFM的模型实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决事件相机单目深度估计中缺乏大规模带深度标注数据集的问题。现有方法要么依赖合成数据,要么需要昂贵的深度传感器进行标注,限制了其在真实场景中的应用。

核心思路:核心思路是利用视觉基础模型(VFM)的强大泛化能力,通过跨模态蒸馏的方式,将RGB图像的深度信息迁移到事件数据上,从而生成事件数据的密集代理深度标签。这样就可以在没有真实深度标注的情况下训练事件相机的深度估计模型。

技术框架:整体框架包含以下几个主要步骤:1) 采集RGB图像和事件数据,并进行空间对齐;2) 使用VFM(如Depth Anything v2)对RGB图像进行深度估计;3) 将RGB图像的深度估计结果作为事件数据的代理标签;4) 使用事件数据和代理标签训练事件相机的深度估计模型。论文还提出了一种基于VFM的循环架构,用于直接从事件数据推断深度。

关键创新:最重要的创新点在于提出了跨模态蒸馏范式,将视觉基础模型的知识迁移到事件数据上,从而解决了事件相机深度估计中数据标注不足的问题。此外,论文还探索了如何将VFM应用于事件数据,并提出了一种新的循环架构。

关键设计:论文的关键设计包括:1) 选择合适的VFM作为深度估计器;2) 设计有效的损失函数,用于训练事件相机的深度估计模型;3) 设计循环架构,以更好地利用事件数据的时间信息。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该跨模态蒸馏范式在合成和真实数据集上均取得了具有竞争力的性能,甚至超越了部分完全监督方法。基于VFM的模型在事件相机深度估计任务上达到了SOTA水平,证明了该方法的有效性和优越性。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、无人机等领域。事件相机在高速运动和光照变化剧烈的场景下具有优势,结合深度估计技术,可以提高这些应用在复杂环境中的鲁棒性和可靠性。未来,该方法有望进一步推广到其他事件相机相关的视觉任务中。

📄 摘要(原文)

Event cameras capture sparse, high-temporal-resolution visual information, making them particularly suitable for challenging environments with high-speed motion and strongly varying lighting conditions. However, the lack of large datasets with dense ground-truth depth annotations hinders learning-based monocular depth estimation from event data. To address this limitation, we propose a cross-modal distillation paradigm to generate dense proxy labels leveraging a Vision Foundation Model (VFM). Our strategy requires an event stream spatially aligned with RGB frames, a simple setup even available off-the-shelf, and exploits the robustness of large-scale VFMs. Additionally, we propose to adapt VFMs, either a vanilla one like Depth Anything v2 (DAv2), or deriving from it a novel recurrent architecture to infer depth from monocular event cameras. We evaluate our approach with synthetic and real-world datasets, demonstrating that i) our cross-modal paradigm achieves competitive performance compared to fully supervised methods without requiring expensive depth annotations, and ii) our VFM-based models achieve state-of-the-art performance.