CogStereo: Neural Stereo Matching with Implicit Spatial Cognition Embedding

📄 arXiv: 2510.22119v1 📥 PDF

作者: Lihuang Fang, Xiao Hu, Yuchen Zou, Hong Zhang

分类: cs.CV

发布日期: 2025-10-25

备注: 9 pages, 6 figures


💡 一句话要点

CogStereo:利用隐式空间认知嵌入的神经立体匹配,提升零样本泛化能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体匹配 深度估计 空间认知 零样本泛化 神经网络

📋 核心要点

  1. 现有深度立体匹配方法在特定数据集上表现良好,但缺乏基础模型在其他视觉任务中展现的零样本泛化能力。
  2. CogStereo通过引入单目深度特征作为先验,将隐式空间认知嵌入到立体匹配的细化过程中,从而提升对场景的整体理解。
  3. 实验结果表明,CogStereo在多个数据集上取得了领先性能,并在跨域泛化能力上表现优异,体现了认知驱动的优势。

📝 摘要(中文)

深度立体匹配通过微调在基准数据集上取得了显著进展,但在零样本泛化方面不如其他视觉任务中的基础模型。本文提出了CogStereo,一种新颖的框架,旨在解决诸如遮挡或弱纹理等具有挑战性的区域,而无需依赖于数据集特定的先验知识。CogStereo通过使用单目深度特征作为先验,将隐式空间认知嵌入到细化过程中,从而捕获超越局部对应关系的整体场景理解。这种方法确保了结构连贯的视差估计,即使在仅靠几何信息不足的区域也是如此。CogStereo采用双条件细化机制,将像素级不确定性与认知引导的特征相结合,以实现对不匹配的全局一致性校正。在Scene Flow、KITTI、Middlebury、ETH3D、EuRoc和真实世界等数据集上的大量实验表明,CogStereo不仅实现了最先进的结果,而且在跨域泛化方面表现出色,从而将立体视觉推向了认知驱动的方法。

🔬 方法详解

问题定义:现有深度立体匹配方法过度依赖数据集特定的先验知识,导致在遮挡、弱纹理等复杂区域以及跨域场景下的泛化能力不足。这些方法难以有效利用场景的全局结构信息,容易产生不一致的视差估计。

核心思路:CogStereo的核心思路是将隐式空间认知融入到立体匹配过程中,利用单目深度特征作为先验知识,引导网络学习场景的整体结构信息。通过这种方式,即使在局部信息不足的情况下,也能生成结构连贯的视差图。

技术框架:CogStereo采用双条件细化机制。首先,利用单目深度估计网络提取深度特征,作为空间认知先验。然后,将该先验与传统的立体匹配网络提取的特征进行融合。接着,通过像素级不确定性估计模块评估匹配的可靠性。最后,利用认知引导的特征和不确定性信息,对视差图进行全局一致性校正。

关键创新:CogStereo的关键创新在于将隐式空间认知嵌入到立体匹配过程中。与传统方法仅依赖局部对应关系不同,CogStereo利用单目深度特征作为先验,从而能够捕获场景的整体结构信息,提高在复杂区域和跨域场景下的泛化能力。

关键设计:CogStereo采用双条件细化机制,结合像素级不确定性与认知引导特征,实现全局一致性校正。单目深度估计网络的选择和训练、特征融合的方式、不确定性估计的损失函数以及全局校正的具体算法,都是影响最终性能的关键设计因素。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

CogStereo在Scene Flow、KITTI、Middlebury、ETH3D、EuRoc等多个数据集上取得了state-of-the-art的结果,尤其在跨域泛化能力上表现突出。相较于传统方法,CogStereo在遮挡和弱纹理区域的视差估计精度显著提升,证明了其隐式空间认知嵌入的有效性。

🎯 应用场景

CogStereo在自动驾驶、机器人导航、三维重建、虚拟现实等领域具有广泛的应用前景。它能够提升在复杂环境下的深度感知能力,为机器人提供更可靠的环境信息,从而提高其自主性和安全性。此外,该方法还可以应用于增强现实和虚拟现实等领域,提供更逼真的三维场景体验。

📄 摘要(原文)

Deep stereo matching has advanced significantly on benchmark datasets through fine-tuning but falls short of the zero-shot generalization seen in foundation models in other vision tasks. We introduce CogStereo, a novel framework that addresses challenging regions, such as occlusions or weak textures, without relying on dataset-specific priors. CogStereo embeds implicit spatial cognition into the refinement process by using monocular depth features as priors, capturing holistic scene understanding beyond local correspondences. This approach ensures structurally coherent disparity estimation, even in areas where geometry alone is inadequate. CogStereo employs a dual-conditional refinement mechanism that combines pixel-wise uncertainty with cognition-guided features for consistent global correction of mismatches. Extensive experiments on Scene Flow, KITTI, Middlebury, ETH3D, EuRoc, and real-world demonstrate that CogStereo not only achieves state-of-the-art results but also excels in cross-domain generalization, shifting stereo vision towards a cognition-driven approach.