CCNeXt: An Effective Self-Supervised Stereo Depth Estimation Approach

📄 arXiv: 2509.22627v1 📥 PDF

作者: Alexandre Lopes, Roberto Souza, Helio Pedrini

分类: cs.CV

发布日期: 2025-09-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出CCNeXt,一种高效的自监督立体深度估计方法,适用于计算资源受限的场景。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 立体视觉 深度估计 自监督学习 卷积神经网络 注意力机制

📋 核心要点

  1. 现有深度估计方法难以在计算资源受限的场景下,同时保证精度和效率。
  2. CCNeXt采用新颖的窗口化极线交叉注意力模块和重新设计的深度估计解码器,提升性能。
  3. 实验表明,CCNeXt在KITTI数据集上取得了优异的性能,并在速度上显著优于现有方法。

📝 摘要(中文)

深度估计在机器人、自动驾驶和增强现实等应用中起着至关重要的作用。这些场景通常在计算能力有限的约束下运行。立体图像对为深度估计提供了一种有效的解决方案,因为它只需要估计图像对中像素的视差,即可确定已知校正系统中的深度。由于难以在各种场景中获取可靠的真实深度数据,自监督技术应运而生,尤其是在有大量未标记数据集可用时。我们提出了一种新颖的自监督卷积方法,该方法优于现有的最先进的卷积神经网络(CNN)和视觉Transformer(ViT),同时平衡了计算成本。所提出的CCNeXt架构采用了一种现代CNN特征提取器,在编码器中采用了一种新颖的窗口化极线交叉注意力模块,并对深度估计解码器进行了全面的重新设计。我们的实验表明,CCNeXt在KITTI Eigen Split测试数据上实现了具有竞争力的指标,同时比当前最佳模型快10.18倍,并且与最近提出的技术相比,在KITTI Eigen Split Improved Ground Truth和Driving Stereo数据集的所有指标中都实现了最先进的结果。为了确保完全的可重复性,我们的项目可在https://github.com/alelopes/CCNext上访问。

🔬 方法详解

问题定义:论文旨在解决立体视觉深度估计问题,特别是在计算资源受限的场景下,如何设计一个既高效又准确的自监督深度估计模型。现有的CNN和ViT模型在精度和计算效率之间难以取得平衡,尤其是在需要处理高分辨率图像时,计算成本会显著增加。

核心思路:论文的核心思路是利用一种新颖的卷积神经网络架构CCNeXt,结合窗口化的极线交叉注意力机制,在编码器中有效地提取图像特征,并在解码器中进行深度估计。通过精心设计的网络结构和注意力机制,模型能够在保证精度的前提下,显著降低计算复杂度。

技术框架:CCNeXt的整体架构包括一个CNN特征提取器、一个窗口化极线交叉注意力模块(位于编码器中)和一个深度估计解码器。首先,CNN特征提取器从左右图像中提取特征。然后,窗口化极线交叉注意力模块利用极线约束,在左右图像的对应区域之间进行特征交互,从而更好地估计视差。最后,深度估计解码器将提取的特征映射到深度图。

关键创新:论文的关键创新在于提出了窗口化极线交叉注意力模块。该模块利用极线几何约束,限制了注意力计算的范围,从而降低了计算复杂度。同时,窗口化的设计进一步减少了计算量,并允许模型关注局部区域的特征相关性。这种设计使得模型能够在保证精度的前提下,显著提高计算效率。

关键设计:窗口化极线交叉注意力模块的关键设计包括窗口大小的选择、注意力权重的计算方式以及极线约束的实现。论文可能采用了可学习的注意力权重,并通过损失函数来优化模型的性能。此外,深度估计解码器的设计也至关重要,可能采用了多尺度特征融合、上采样等技术来提高深度图的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CCNeXt在KITTI Eigen Split测试数据上取得了具有竞争力的指标,并且比当前最佳模型快10.18倍。在KITTI Eigen Split Improved Ground Truth和Driving Stereo数据集上,CCNeXt在所有指标上都实现了最先进的结果,超越了最近提出的其他方法。这些实验结果表明,CCNeXt在精度和效率方面都具有显著的优势。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、增强现实等领域。在机器人导航中,准确的深度估计可以帮助机器人感知周围环境,从而实现自主导航和避障。在自动驾驶中,深度估计是环境感知的重要组成部分,可以用于车辆的定位、障碍物检测和路径规划。在增强现实中,深度估计可以用于将虚拟物体与真实场景进行精确的融合。

📄 摘要(原文)

Depth Estimation plays a crucial role in recent applications in robotics, autonomous vehicles, and augmented reality. These scenarios commonly operate under constraints imposed by computational power. Stereo image pairs offer an effective solution for depth estimation since it only needs to estimate the disparity of pixels in image pairs to determine the depth in a known rectified system. Due to the difficulty in acquiring reliable ground-truth depth data across diverse scenarios, self-supervised techniques emerge as a solution, particularly when large unlabeled datasets are available. We propose a novel self-supervised convolutional approach that outperforms existing state-of-the-art Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) while balancing computational cost. The proposed CCNeXt architecture employs a modern CNN feature extractor with a novel windowed epipolar cross-attention module in the encoder, complemented by a comprehensive redesign of the depth estimation decoder. Our experiments demonstrate that CCNeXt achieves competitive metrics on the KITTI Eigen Split test data while being 10.18$\times$ faster than the current best model and achieves state-of-the-art results in all metrics in the KITTI Eigen Split Improved Ground Truth and Driving Stereo datasets when compared to recently proposed techniques. To ensure complete reproducibility, our project is accessible at \href{https://github.com/alelopes/CCNext}{\texttt{https://github.com/alelopes/CCNext}}.