Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation
作者: Jinfeng Liu, Lingtong Kong, Bo Li, Zerong Wang, Hong Gu, Jinwei Chen
分类: cs.CV
发布日期: 2024-07-19
备注: 27 pages, accepted by ECCV 2024
🔗 代码/项目: GITHUB
💡 一句话要点
Mono-ViFI:用于自监督单目深度估计的统一学习框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自监督学习 单目深度估计 视频帧插值 多帧融合 深度一致性 时序增强 特征对齐
📋 核心要点
- 现有自监督单目深度估计方法在单目视频训练中,仅在现有相机视图间进行视图合成,导致指导信息不足。
- 论文提出基于光流的视频帧插值(VFI)来合成更多虚拟相机视图,实现时序增强,并设计VFI辅助的多帧融合模块。
- 实验结果表明,该方法能够显著提升现有先进架构的性能,并且单帧和多帧模型可以共享权重,提高效率。
📝 摘要(中文)
本文提出了一种自监督单目深度估计的统一学习框架Mono-ViFI,旨在解决单目视频训练中视图合成指导不足的问题。该框架通过基于光流的视频帧插值(VFI)合成更多虚拟相机视图,实现时序增强。针对多帧推理中动态对象问题,设计了VFI辅助的多帧融合模块,利用光流模型提供的运动和遮挡信息对齐和聚合多帧特征。Mono-ViFI框架统一了单帧和多帧深度估计,通过图像仿射变换进行空间数据增强,并引入三元组深度一致性损失进行正则化。单帧和多帧模型可以共享权重,提高了框架的紧凑性和内存效率。实验结果表明,该方法能够显著提升现有先进架构的性能。
🔬 方法详解
问题定义:现有自监督单目深度估计方法在单目视频训练中,主要依赖于相邻帧之间的视图合成进行深度学习。然而,这种方法仅利用了有限的相机视角,导致训练过程中缺乏足够的指导信息,从而限制了深度估计的准确性。此外,对于多帧深度估计,显式的几何方法容易受到动态对象的影响,导致估计结果不准确。
核心思路:论文的核心思路是通过引入基于光流的视频帧插值(VFI)技术,合成更多的虚拟相机视图,从而实现时序增强,为单目深度估计提供更丰富的训练数据和更强的约束。对于多帧深度估计,采用特征融合的策略,利用VFI提供的运动和遮挡信息,对齐和聚合多帧特征,从而避免动态对象的影响。
技术框架:Mono-ViFI框架包含单帧深度估计分支和多帧深度估计分支,两者共享权重。在单帧深度估计分支中,利用VFI合成虚拟相机视图,并使用合成视图进行自监督训练。在多帧深度估计分支中,首先使用VFI对齐多帧特征,然后使用多帧融合模块聚合特征,最后进行深度估计。整个框架采用统一的自监督学习框架进行训练。
关键创新:该论文的关键创新在于:1) 提出利用VFI进行时序增强,为单目深度估计提供更丰富的训练数据;2) 设计了VFI辅助的多帧融合模块,能够有效地对齐和聚合多帧特征,从而提高多帧深度估计的准确性;3) 构建了一个统一的自监督学习框架,能够同时训练单帧和多帧深度估计模型,并实现权重共享。
关键设计:在数据增强方面,采用了图像仿射变换进行空间数据增强,以提高模型的泛化能力。在损失函数方面,除了常用的光度一致性损失外,还引入了三元组深度一致性损失,以进一步约束深度估计的准确性。VFI模型采用现有的成熟的光流估计网络,并进行微调以适应深度估计任务。多帧融合模块采用注意力机制,根据运动和遮挡信息自适应地调整不同帧的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Mono-ViFI框架能够显著提升现有先进架构的性能。例如,在KITTI数据集上,Mono-ViFI框架在单帧深度估计任务上取得了state-of-the-art的结果,并且在多帧深度估计任务上,相比于现有方法,深度估计的精度也得到了显著提升。此外,通过权重共享,Mono-ViFI框架在保证性能的同时,还降低了模型的参数量和计算复杂度。
🎯 应用场景
该研究成果可广泛应用于自动驾驶、机器人导航、虚拟现实、增强现实等领域。在自动驾驶中,准确的深度估计可以帮助车辆感知周围环境,从而实现安全可靠的自动驾驶。在机器人导航中,深度信息可以帮助机器人进行路径规划和避障。在虚拟现实和增强现实中,深度信息可以用于构建更逼真的三维场景。
📄 摘要(原文)
Self-supervised monocular depth estimation has gathered notable interest since it can liberate training from dependency on depth annotations. In monocular video training case, recent methods only conduct view synthesis between existing camera views, leading to insufficient guidance. To tackle this, we try to synthesize more virtual camera views by flow-based video frame interpolation (VFI), termed as temporal augmentation. For multi-frame inference, to sidestep the problem of dynamic objects encountered by explicit geometry-based methods like ManyDepth, we return to the feature fusion paradigm and design a VFI-assisted multi-frame fusion module to align and aggregate multi-frame features, using motion and occlusion information obtained by the flow-based VFI model. Finally, we construct a unified self-supervised learning framework, named Mono-ViFI, to bilaterally connect single- and multi-frame depth. In this framework, spatial data augmentation through image affine transformation is incorporated for data diversity, along with a triplet depth consistency loss for regularization. The single- and multi-frame models can share weights, making our framework compact and memory-efficient. Extensive experiments demonstrate that our method can bring significant improvements to current advanced architectures. Source code is available at https://github.com/LiuJF1226/Mono-ViFI.