Hierarchical Awareness Adapters with Hybrid Pyramid Feature Fusion for Dense Depth Prediction
作者: Wuqi Su, Huilun Song, Chen Zhao, Chi Xu
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出基于Swin Transformer的层级感知单目深度估计模型,显著提升精度与效率。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 单目深度估计 Swin Transformer 条件随机场 特征融合 层级感知
📋 核心要点
- 单目深度估计面临尺度模糊和几何信息缺失的挑战,现有方法依赖复杂网络,计算成本高昂。
- 提出多级感知条件随机场模型,结合混合金字塔特征融合、层级感知适配器和动态缩放注意力CRF解码器。
- 实验表明,该方法在NYU Depth v2和KITTI数据集上取得了SOTA性能,参数量和推理时间均有优势。
📝 摘要(中文)
单张RGB图像的单目深度估计由于固有的尺度模糊和缺乏明确的几何线索,仍然是计算机视觉领域的一个根本性挑战。现有方法通常依赖于日益复杂的网络架构来回归深度图,这增加了训练成本和计算开销,而没有充分利用像素间的空间依赖性。我们提出了一种基于Swin Transformer主干的多级感知条件随机场(CRF)模型,通过三个协同创新来解决这些限制:(1)一种自适应混合金字塔特征融合(HPF)策略,通过将多尺度空间金字塔池化与双轴特征聚合相结合,捕获短程和远程依赖性,从而有效整合全局和局部上下文信息;(2)一种层级感知适配器(HA),通过具有可学习维度缩放的轻量级广播模块来丰富编码器内的跨层特征交互,从而降低计算复杂度,同时增强表征能力;(3)一个具有动态缩放注意力的全连接CRF解码器,用于建模细粒度的像素级空间关系,并结合偏置学习单元以防止极值崩溃并确保稳定训练。在NYU Depth v2、KITTI和MatterPort3D数据集上的大量实验表明,我们的方法实现了最先进的性能,在NYU Depth v2上将Abs Rel降低至0.088(-7.4%),RMSE降低至0.316(-5.4%),同时在KITTI上以仅194M参数和21ms的推理时间实现了接近完美的阈值精度(δ < 1.25^3 ≈ 99.8%)。
🔬 方法详解
问题定义:单目深度估计旨在从单张RGB图像中预测场景的深度信息。现有方法通常采用复杂的深度神经网络,但这些方法计算量大,难以充分利用图像中的空间依赖关系,并且容易受到尺度模糊的影响。现有方法的痛点在于模型复杂度高、计算效率低,且对像素间的空间关系建模不足。
核心思路:本文的核心思路是利用Swin Transformer强大的特征提取能力,并在此基础上引入混合金字塔特征融合、层级感知适配器和动态缩放注意力CRF解码器,以增强模型对全局和局部上下文信息的理解,并有效建模像素间的空间关系。通过轻量化的设计,降低计算复杂度,提高推理速度。
技术框架:整体框架包括三个主要部分:1) 基于Swin Transformer的编码器,用于提取多尺度特征;2) 混合金字塔特征融合模块(HPF),用于融合不同尺度的特征,捕获短程和远程依赖;3) 层级感知适配器(HA),用于增强编码器内部跨层特征的交互;4) 动态缩放注意力CRF解码器,用于建模像素级的空间关系,并进行深度预测。
关键创新:该论文的关键创新在于以下三个方面:1) 提出了自适应混合金字塔特征融合(HPF)策略,有效整合全局和局部上下文信息;2) 提出了层级感知适配器(HA),降低计算复杂度,同时增强表征能力;3) 提出了具有动态缩放注意力的全连接CRF解码器,用于建模细粒度的像素级空间关系,并结合偏置学习单元以防止极值崩溃。
关键设计:HPF模块采用多尺度空间金字塔池化与双轴特征聚合相结合的方式,以捕获不同范围的依赖关系。HA模块采用轻量级广播模块,并引入可学习的维度缩放参数,以控制跨层特征交互的强度。CRF解码器使用动态缩放注意力机制,自适应地调整像素间的注意力权重。偏置学习单元用于防止训练过程中出现深度值的极端值。
📊 实验亮点
实验结果表明,该方法在NYU Depth v2数据集上取得了显著的性能提升,Abs Rel指标降低至0.088(-7.4%),RMSE指标降低至0.316(-5.4%)。在KITTI数据集上,该方法实现了接近完美的阈值精度(δ < 1.25^3 ≈ 99.8%),同时保持了较低的参数量(194M)和较快的推理速度(21ms)。
🎯 应用场景
该研究成果可广泛应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。精确的深度估计是这些应用场景中的关键技术,能够帮助机器人或智能系统更好地理解周围环境,从而做出更准确的决策。该方法在精度和效率上的提升,使其更适用于资源受限的移动平台。
📄 摘要(原文)
Monocular depth estimation from a single RGB image remains a fundamental challenge in computer vision due to inherent scale ambiguity and the absence of explicit geometric cues. Existing approaches typically rely on increasingly complex network architectures to regress depth maps, which escalates training costs and computational overhead without fully exploiting inter-pixel spatial dependencies. We propose a multilevel perceptual conditional random field (CRF) model built upon the Swin Transformer backbone that addresses these limitations through three synergistic innovations: (1) an adaptive hybrid pyramid feature fusion (HPF) strategy that captures both short-range and long-range dependencies by combining multi-scale spatial pyramid pooling with biaxial feature aggregation, enabling effective integration of global and local contextual information; (2) a hierarchical awareness adapter (HA) that enriches cross-level feature interactions within the encoder through lightweight broadcast modules with learnable dimensional scaling, reducing computational complexity while enhancing representational capacity; and (3) a fully-connected CRF decoder with dynamic scaling attention that models fine-grained pixel-level spatial relationships, incorporating a bias learning unit to prevent extreme-value collapse and ensure stable training. Extensive experiments on NYU Depth v2, KITTI, and MatterPort3D datasets demonstrate that our method achieves state-of-the-art performance, reducing Abs Rel to 0.088 ($-$7.4\%) and RMSE to 0.316 ($-$5.4\%) on NYU Depth v2, while attaining near-perfect threshold accuracy ($\delta < 1.25^3 \approx 99.8\%$) on KITTI with only 194M parameters and 21ms inference time.