UniCT Depth: Event-Image Fusion Based Monocular Depth Estimation with Convolution-Compensated ViT Dual SA Block

作者: Luoxi Jing, Dianxi Shi, Zhe Liu, Songchang Jin, Chunping Qiu, Ziteng Qiao, Yuxian Li, Jianqiang Xia

分类: cs.CV

发布日期: 2025-07-26

备注: Accepted by IJCAI 2025 (International Joint Conference on Artificial Intelligence)

💡 一句话要点

UniCT Depth：提出基于卷积补偿ViT双自注意力块的事件-图像融合单目深度估计方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 事件相机 图像融合 Transformer 卷积神经网络 自注意力机制 跨模态融合

📋 核心要点

现有基于CNN的融合方法感受野有限，难以处理遮挡和深度差异；Transformer方法则缺乏深度模态交互。
UniCT Depth统一CNN和Transformer，通过CcViT-DA块和DCC块分别建模全局和局部特征，实现更有效的事件-图像融合。
实验结果表明，UniCT Depth在单目深度估计任务上，优于现有的图像、事件和融合方法，提升了深度估计的精度。

📝 摘要（中文）

深度估计在三维场景理解中起着关键作用，并广泛应用于各种视觉任务。基于图像的方法在复杂场景中表现不佳，而事件相机虽然具有高动态范围和时间分辨率，但面临数据稀疏的问题。结合事件和图像数据具有显著优势，但有效的融合仍然具有挑战性。现有的基于CNN的融合方法由于感受野有限，难以处理遮挡和深度差异，而基于Transformer的融合方法通常缺乏深度的模态交互。为了解决这些问题，我们提出了UniCT Depth，一种统一CNN和Transformer的事件-图像融合方法，以建模局部和全局特征。我们提出了卷积补偿ViT双自注意力（CcViT-DA）块，专为编码器设计，它集成了上下文建模自注意力（CMSA）来捕获空间依赖性，以及模态融合自注意力（MFSA）来实现有效的跨模态融合。此外，我们设计了定制的细节补偿卷积（DCC）块，以改善纹理细节并增强边缘表示。实验表明，UniCT Depth在关键指标上优于现有的基于图像、事件和融合的单目深度估计方法。

🔬 方法详解

问题定义：论文旨在解决单目深度估计中，图像方法在光照不足或高动态范围场景下失效，而事件相机数据稀疏的问题。现有融合方法，如CNN方法感受野有限，难以处理遮挡和深度突变；Transformer方法模态间交互不足，无法充分利用事件和图像的信息互补性。

核心思路：论文的核心思路是结合CNN和Transformer的优势，利用CNN提取局部细节特征，利用Transformer建模全局上下文信息，并通过精心设计的模块实现事件和图像数据的有效融合。通过这种方式，既能克服单一模态的局限性，又能充分利用两种模态的互补信息。

技术框架：UniCT Depth的整体架构是一个编码器-解码器结构。编码器部分使用提出的Convolution-compensated ViT Dual SA (CcViT-DA) Block提取特征，解码器部分负责将特征映射到深度图。CcViT-DA块是核心模块，包含Context Modeling Self-Attention (CMSA)和Modal Fusion Self-Attention (MFSA)两个子模块。此外，还设计了Detail Compensation Convolution (DCC) Block来增强纹理细节和边缘信息。

关键创新：论文的关键创新在于CcViT-DA块的设计，它将卷积操作融入到ViT的自注意力机制中，从而在建模全局上下文的同时，保留了局部细节信息。CMSA模块专注于捕获空间依赖关系，MFSA模块则专注于跨模态融合。DCC块则进一步提升了深度图的细节表现。与现有方法相比，该方法在模态融合的深度和特征提取的精细度上都有显著提升。

关键设计：CcViT-DA块中的CMSA模块利用卷积操作来增强自注意力的局部建模能力。MFSA模块通过cross-attention机制实现事件和图像特征的融合。DCC块采用多层卷积结构，并引入残差连接，以增强纹理细节和边缘信息的表达能力。损失函数方面，论文可能采用了深度回归常用的L1或L2损失，具体细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UniCT Depth在多个数据集上取得了state-of-the-art的性能。相较于现有的单目深度估计方法，UniCT Depth在深度精度和边缘细节方面都有显著提升。具体的性能数据和提升幅度在论文中给出，这里无法得知具体数值。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中，准确的深度估计对于障碍物检测、路径规划至关重要。在机器人导航中，深度信息可以帮助机器人理解周围环境，实现自主移动。在增强现实中，深度信息可以用于虚拟物体的精确放置和交互。

📄 摘要（原文）

Depth estimation plays a crucial role in 3D scene understanding and is extensively used in a wide range of vision tasks. Image-based methods struggle in challenging scenarios, while event cameras offer high dynamic range and temporal resolution but face difficulties with sparse data. Combining event and image data provides significant advantages, yet effective integration remains challenging. Existing CNN-based fusion methods struggle with occlusions and depth disparities due to limited receptive fields, while Transformer-based fusion methods often lack deep modality interaction. To address these issues, we propose UniCT Depth, an event-image fusion method that unifies CNNs and Transformers to model local and global features. We propose the Convolution-compensated ViT Dual SA (CcViT-DA) Block, designed for the encoder, which integrates Context Modeling Self-Attention (CMSA) to capture spatial dependencies and Modal Fusion Self-Attention (MFSA) for effective cross-modal fusion. Furthermore, we design the tailored Detail Compensation Convolution (DCC) Block to improve texture details and enhances edge representations. Experiments show that UniCT Depth outperforms existing image, event, and fusion-based monocular depth estimation methods across key metrics.

UniCT Depth: Event-Image Fusion Based Monocular Depth Estimation with Convolution-Compensated ViT Dual SA Block

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理