Efficient Hybrid CNN-GNN Architecture for Monocular Depth Estimation

📄 arXiv: 2605.10251v1 📥 PDF

作者: Ishan Narayan

分类: cs.CV

发布日期: 2026-05-11


💡 一句话要点

提出GraphDepth架构:通过融合CNN与GNN实现高效单目深度估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 单目深度估计 图神经网络 GraphSAGE 多尺度特征融合 异方差不确定性 计算效率优化 空间关系建模

📋 核心要点

  1. 现有CNN方法受限于局部感受野,难以捕捉长程空间依赖,而Transformer架构则面临计算复杂度随序列长度呈二次增长的瓶颈。
  2. 提出GraphDepth架构,通过在ResNet-101骨干网中嵌入多尺度GraphSAGE层,利用迭代消息传递显式建模全局空间关系。
  3. 实验表明,该方法在保持线性计算复杂度的同时,以显著降低的显存占用(3.8GB vs 8.8GB)实现了与SOTA Transformer相当的精度。

📝 摘要(中文)

本文提出了GraphDepth,一种将图神经网络(GNN)与卷积编码器-解码器框架深度融合的单目深度估计架构。该方法在ResNet-101 U-Net骨干网的多尺度特征层中嵌入了高效的GraphSAGE层,旨在显式建模局部卷积感受野之外的长程空间依赖关系。核心贡献包括:支持可配置k-NN与网格邻接的批量并行图构建;在瓶颈层及解码器阶段(1/32至1/8分辨率)集成多尺度GraphSAGE以传播全局上下文;引入通道注意力门控跳跃连接;以及通过异方差不确定性头实现置信度感知的损失加权。与计算复杂度呈二次增长的Transformer架构不同,GraphDepth在保持线性空间复杂度的同时,实现了更优的计算效率与泛化能力。

🔬 方法详解

问题定义:单目深度估计的核心挑战在于如何有效捕捉图像中的全局几何上下文。传统CNN受限于卷积核的局部性,难以处理长程依赖;而基于Transformer的全局建模方法虽然有效,但其计算复杂度随分辨率增加呈二次增长,导致推理效率低下且显存开销巨大。

核心思路:论文提出将图神经网络(GNN)作为CNN的补充,通过图结构显式建模像素间的长程关联。利用GraphSAGE的聚合机制,在不引入Transformer二次复杂度的情况下,实现特征空间内的高效全局信息传播。

技术框架:整体架构基于ResNet-101 U-Net,在编码器瓶颈及解码器(1/32, 1/16, 1/8分辨率)处插入GraphSAGE模块。通过批量并行图构建策略,将特征图转化为图结构,并结合通道注意力机制对跳跃连接进行加权融合。

关键创新:引入了线性复杂度的图推理机制,替代了Transformer的自注意力机制。通过多尺度特征层次的迭代消息传递,在保持计算效率的同时,实现了对复杂场景几何结构的精准建模。

关键设计:采用可配置的k-NN与网格邻接图构建策略以优化训练效率;引入异方差不确定性估计头,通过预测像素级不确定性来动态调整损失函数权重,从而提升模型在边界与复杂区域的鲁棒性。

🖼️ 关键图片

fig_0

📊 实验亮点

GraphDepth在NYU Depth V2等基准测试中表现优异,精度仅比SOTA Transformer低4.6%,但推理速度提升至25 FPS(对比9 FPS),显存占用降低至3.8 GB(对比8.8 GB)。此外,该模型在WHU Aerial数据集上刷新了RMSE记录(8.24 m),并展现出卓越的零样本跨域迁移能力,验证了显式关系推理在深度估计中的泛化优势。

🎯 应用场景

该研究在自动驾驶、机器人导航及无人机航测领域具有重要价值。由于其高效的推理速度(25 FPS)和较低的显存需求,GraphDepth特别适用于资源受限的嵌入式设备,能够为实时避障、三维场景重建及跨域环境感知提供高精度的深度信息支持。

📄 摘要(原文)

We present GraphDepth, a monocular depth estimation architecture that synergistically integrates Graph Neural Networks (GNNs) within a convolutional encoder-decoder framework. Our approach embeds efficient GraphSAGE layers at multiple scales of a ResNet-101 U-Net backbone, enabling explicit modeling of long-range spatial relationships that lie beyond the receptive field of local convolutions. Key technical contributions include: (1) batch-parallelized graph construction with configurable k-NN and grid-based adjacency for scalable training; (2) multi-scale GraphSAGE integration at bottleneck and decoder stages (1/32, 1/16, 1/8 resolution) to propagate global context throughout the feature hierarchy; (3) channel-attention gated skip connections that adaptively weight encoder features before fusion; and (4) heteroscedastic uncertainty estimation via a dedicated aleatoric uncertainty head, enabling confidence-aware loss weighting during optimization. Unlike transformer-based hybrids, which suffer from quadratic complexity in sequence length, GraphDepth scales linearly with spatial resolution while achieving comparable global receptive fields through iterative message passing. Experiments on NYU Depth V2, WHU Aerial, ETH3D, and Mid-Air benchmarks demonstrate competitive accuracy within 4.6\% of state-of-the-art transformers on indoor scenes with substantially lower computational cost (25 FPS vs 9 FPS, 3.8 GB vs 8.8 GB VRAM). GraphDepth achieves the best reported result on WHU Aerial (RMSE 8.24 m) and exhibits superior zero-shot cross-domain transfer to the Mid-Air synthetic aerial dataset, validating the generalization power of explicit relational reasoning for depth estimation.