Transformers in Unsupervised Structure-from-Motion

📄 arXiv: 2312.10529v1 📥 PDF

作者: Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz

分类: cs.CV, cs.AI

发布日期: 2023-12-16

备注: International Joint Conference on Computer Vision, Imaging and Computer Graphics. Cham: Springer Nature Switzerland, 2022. Published at "Communications in Computer and Information Science, vol 1815. Springer Nature". arXiv admin note: text overlap with arXiv:2202.03131

DOI: 10.1007/978-3-031-45725-8_14


💡 一句话要点

提出基于变换器的单目结构光重建方法以提升3D场景理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 结构光重建 变换器 单目视觉 深度学习 鲁棒性 自动驾驶 计算机视觉

📋 核心要点

  1. 现有的结构光重建方法主要依赖于CNN,面临鲁棒性不足和对抗攻击脆弱的问题。
  2. 本文提出了一种基于变换器的单目SfM方法,能够同时学习多种深度信息和相机参数。
  3. 实验结果表明,变换器架构在鲁棒性上优于CNN方法,尽管运行效率较低,但性能相当。

📝 摘要(中文)

变换器在深度学习计算机视觉领域引发了革命,显著提升了性能和对自然干扰及对抗攻击的鲁棒性。尽管变换器主要应用于2D视觉任务,但机器人和高级驾驶辅助系统需要3D场景理解。本文提出了一种基于变换器的单目结构光重建方法,能够同时预测单目像素深度、车辆的平移和旋转,以及相机的焦距和主点。通过在KITTI和DDAD数据集上的实验,展示了不同视觉变换器的适应性,并与现有的CNN方法进行了比较。研究表明,尽管变换器的运行效率较低,但在鲁棒性方面表现更佳,能够抵御自然干扰及针对性攻击。

🔬 方法详解

问题定义:本文旨在解决现有结构光重建方法在鲁棒性和对抗攻击方面的不足,尤其是基于CNN的模型在自然干扰下的脆弱性。

核心思路:提出了一种基于变换器的单目SfM方法,利用变换器的自注意力机制来同时预测深度、车辆运动和相机参数,从而提高鲁棒性和准确性。

技术框架:整体架构包括输入图像的特征提取、深度预测模块、运动估计模块和相机参数预测模块,所有模块通过变换器进行信息交互与融合。

关键创新:最重要的创新在于将变换器应用于单目SfM任务,利用其强大的特征表达能力和鲁棒性,显著提升了对自然干扰和攻击的抵抗力。

关键设计:在网络结构中,采用了多层变换器架构,设置了适当的损失函数以平衡深度、运动和相机参数的预测,确保各个模块的协同工作。具体参数设置和训练细节在实验部分进行了详细描述。

📊 实验亮点

实验结果显示,基于变换器的方法在KITTI和DDAD数据集上表现出色,尽管运行效率低于CNN方法,但在鲁棒性方面具有明显优势。具体而言,变换器模型在面对自然干扰和对抗攻击时,性能保持稳定,展示了其在实际应用中的潜力。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人导航和增强现实等。通过提升3D场景理解能力,能够为决策系统提供更准确的环境信息,从而提高安全性和效率。未来,基于变换器的SfM方法可能会在更广泛的视觉任务中得到应用,推动智能系统的发展。

📄 摘要(原文)

Transformers have revolutionized deep learning based computer vision with improved performance as well as robustness to natural corruptions and adversarial attacks. Transformers are used predominantly for 2D vision tasks, including image classification, semantic segmentation, and object detection. However, robots and advanced driver assistance systems also require 3D scene understanding for decision making by extracting structure-from-motion (SfM). We propose a robust transformer-based monocular SfM method that learns to predict monocular pixel-wise depth, ego vehicle's translation and rotation, as well as camera's focal length and principal point, simultaneously. With experiments on KITTI and DDAD datasets, we demonstrate how to adapt different vision transformers and compare them against contemporary CNN-based methods. Our study shows that transformer-based architecture, though lower in run-time efficiency, achieves comparable performance while being more robust against natural corruptions, as well as untargeted and targeted attacks.