Adapting Depth Anything to Adverse Imaging Conditions with Events
作者: Shihan Peng, Yuyang Xiong, Hanyu Zhou, Zhiwei Shi, Haoyue Liu, Gang Chen, Luxin Yan, Yi Chang
分类: cs.CV
发布日期: 2026-01-05
备注: This work has been submitted to the IEEE for possible publication
💡 一句话要点
ADAE:利用事件相机,增强Depth Anything在恶劣成像条件下的深度估计能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度估计 事件相机 恶劣成像条件 时空融合 机器人视觉
📋 核心要点
- 现有深度估计模型在恶劣光照和运动模糊等条件下性能显著下降,无法满足机器人等应用的需求。
- ADAE框架利用事件相机的高动态范围和时间分辨率,通过熵感知空间融合和运动引导时间校正来增强深度估计。
- 实验结果表明,ADAE能够有效提升Depth Anything在恶劣成像条件下的深度估计精度,具有显著优势。
📝 摘要(中文)
在动态和恶劣光照条件下实现鲁棒的深度估计对于机器人系统至关重要。目前,深度基础模型(如Depth Anything)在理想场景中取得了巨大成功,但在极端照明和运动模糊等恶劣成像条件下仍然面临挑战。这些退化会破坏帧相机的视觉信号,削弱基于帧的深度在空间和时间维度上的判别特征。通常,现有方法会结合事件相机,利用其高动态范围和时间分辨率,以补偿损坏的帧特征。然而,这种专门的融合模型主要是在特定领域的数据集上从头开始训练的,因此未能继承基础模型固有的开放世界知识和鲁棒泛化能力。在这项工作中,我们提出了ADAE,一个事件引导的时空融合框架,用于增强Depth Anything在退化场景中的性能。我们的设计基于两个关键见解:1) 熵感知空间融合。我们使用信息熵策略自适应地融合基于帧和基于事件的特征,以指示照明引起的退化。2) 运动引导的时间校正。我们利用基于事件的运动线索来重新校准模糊区域中的模糊特征。在我们的统一框架下,这两个组件相互补充,共同增强Depth Anything在恶劣成像条件下的性能。大量的实验已经验证了所提出方法的优越性。我们的代码将在接受后发布。
🔬 方法详解
问题定义:论文旨在解决Depth Anything等深度估计模型在恶劣成像条件下(如极端光照、运动模糊)性能下降的问题。现有方法通常从头训练特定领域的融合模型,无法有效利用深度基础模型的开放世界知识和泛化能力。
核心思路:核心思路是利用事件相机提供的信息来指导Depth Anything在恶劣条件下的深度估计。具体来说,通过熵感知空间融合自适应地融合帧相机和事件相机的特征,并利用运动引导的时间校正来处理运动模糊。
技术框架:ADAE框架包含两个主要模块:1) 熵感知空间融合模块:该模块计算帧相机特征的信息熵,用于衡量光照退化程度,并自适应地融合帧相机和事件相机的特征。2) 运动引导的时间校正模块:该模块利用事件相机提供的运动信息,对模糊区域的特征进行校正,以提高深度估计的准确性。这两个模块相互补充,共同提升深度估计性能。
关键创新:关键创新在于提出了一种事件引导的时空融合框架,该框架能够有效地利用事件相机的信息来增强深度基础模型在恶劣成像条件下的性能。与现有方法相比,ADAE无需从头训练,能够更好地继承深度基础模型的泛化能力。
关键设计:熵感知空间融合模块使用信息熵作为权重,自适应地融合帧相机和事件相机的特征。运动引导的时间校正模块利用事件相机提供的运动矢量,对模糊区域的特征进行补偿。具体的技术细节(如网络结构、损失函数等)在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了ADAE的优越性,但具体的性能数据、对比基线和提升幅度在摘要中未给出,属于未知信息。实验结果表明,ADAE能够有效提升Depth Anything在恶劣成像条件下的深度估计精度,证明了所提出方法的有效性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。在这些应用中,鲁棒的深度估计至关重要,尤其是在光照条件恶劣或存在运动模糊的情况下。ADAE框架能够提高深度估计的准确性和可靠性,从而提升相关系统的性能和安全性。未来,该技术有望进一步推广到更广泛的视觉应用中。
📄 摘要(原文)
Robust depth estimation under dynamic and adverse lighting conditions is essential for robotic systems. Currently, depth foundation models, such as Depth Anything, achieve great success in ideal scenes but remain challenging under adverse imaging conditions such as extreme illumination and motion blur. These degradations corrupt the visual signals of frame cameras, weakening the discriminative features of frame-based depths across the spatial and temporal dimensions. Typically, existing approaches incorporate event cameras to leverage their high dynamic range and temporal resolution, aiming to compensate for corrupted frame features. However, such specialized fusion models are predominantly trained from scratch on domain-specific datasets, thereby failing to inherit the open-world knowledge and robust generalization inherent to foundation models. In this work, we propose ADAE, an event-guided spatiotemporal fusion framework for Depth Anything in degraded scenes. Our design is guided by two key insights: 1) Entropy-Aware Spatial Fusion. We adaptively merge frame-based and event-based features using an information entropy strategy to indicate illumination-induced degradation. 2) Motion-Guided Temporal Correction. We resort to the event-based motion cue to recalibrate ambiguous features in blurred regions. Under our unified framework, the two components are complementary to each other and jointly enhance Depth Anything under adverse imaging conditions. Extensive experiments have been performed to verify the superiority of the proposed method. Our code will be released upon acceptance.