Generalized Geometry Encoding Volume for Real-time Stereo Matching
作者: Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang
分类: cs.CV
发布日期: 2025-12-07
备注: Accepted by AAAI 2026
💡 一句话要点
提出GGEV,一种具有强泛化能力的实时立体匹配网络
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 立体匹配 深度估计 实时性 泛化能力 深度感知特征 代价聚合 自动驾驶
📋 核心要点
- 现有实时立体匹配方法泛化能力不足,难以适应真实场景,而基于单目视觉基础模型的方法推理速度慢。
- GGEV通过提取深度感知特征编码领域不变的结构先验,并利用深度感知动态代价聚合模块自适应地融入这些先验。
- 实验表明,GGEV在零样本泛化能力上超越现有实时方法,并在多个数据集上达到SOTA性能。
📝 摘要(中文)
本文提出了一种名为广义几何编码体(GGEV)的实时立体匹配网络,旨在实现强大的泛化能力。现有实时立体匹配方法侧重于提升领域内性能,而忽略了在真实世界应用中泛化能力的重要性。虽然最近的立体视觉基础模型利用单目视觉基础模型(MFM)来提高泛化能力,但通常会带来显著的推理延迟。为了解决这一权衡,GGEV首先提取深度感知特征,将领域不变的结构先验编码为代价聚合的指导。随后,引入深度感知动态代价聚合(DDCA)模块,自适应地将这些先验融入到每个视差假设中,有效地增强了在未见场景中脆弱的匹配关系。这两个步骤都是轻量级的且互补的,从而构建了一个具有强大泛化能力的广义几何编码体。实验结果表明,GGEV在零样本泛化能力方面超越了所有现有的实时方法,并在KITTI 2012、KITTI 2015和ETH3D基准测试中实现了最先进的性能。
🔬 方法详解
问题定义:现有实时立体匹配算法在特定数据集上表现良好,但在未见过的场景中泛化能力较差。而利用单目视觉基础模型提升泛化能力的方法,计算复杂度高,难以满足实时性要求。因此,如何在保证实时性的前提下,提升立体匹配算法的泛化能力是一个关键问题。
核心思路:论文的核心思路是利用深度感知特征编码领域不变的结构先验,并将其融入到代价聚合过程中,从而增强算法在未见场景中的匹配能力。通过轻量级的深度感知特征提取和动态代价聚合模块,在不显著增加计算负担的前提下,提升泛化性能。
技术框架:GGEV网络主要包含两个阶段:深度感知特征提取和深度感知动态代价聚合。首先,网络提取左右图像的深度感知特征,这些特征编码了领域不变的结构先验。然后,利用这些特征构建代价体,并使用深度感知动态代价聚合模块对代价体进行聚合,最终预测视差图。
关键创新:该论文的关键创新在于提出了广义几何编码体(GGEV)的概念,并通过深度感知特征提取和深度感知动态代价聚合模块来实现。深度感知特征提取模块能够有效地编码领域不变的结构先验,而深度感知动态代价聚合模块能够自适应地将这些先验融入到代价聚合过程中,从而增强算法的泛化能力。
关键设计:深度感知特征提取模块的具体实现细节未知,但强调了其轻量级和编码领域不变结构先验的能力。深度感知动态代价聚合模块的设计目标是自适应地将结构先验融入到每个视差假设中,具体实现方式未知。损失函数和网络结构等其他技术细节也未在摘要中提及。
🖼️ 关键图片
📊 实验亮点
GGEV在KITTI 2012、KITTI 2015和ETH3D等基准数据集上取得了state-of-the-art的性能。特别是在零样本泛化能力方面,GGEV超越了所有现有的实时立体匹配方法,表明其具有很强的实际应用潜力。具体的性能提升数据未在摘要中给出。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中,立体匹配可以用于感知周围环境,为车辆提供可靠的深度信息。在机器人导航中,立体匹配可以帮助机器人理解周围环境,实现自主导航。在三维重建中,立体匹配可以用于生成高质量的三维模型。该研究的实时性和泛化性使其在实际应用中具有重要价值。
📄 摘要(原文)
Real-time stereo matching methods primarily focus on enhancing in-domain performance but often overlook the critical importance of generalization in real-world applications. In contrast, recent stereo foundation models leverage monocular foundation models (MFMs) to improve generalization, but typically suffer from substantial inference latency. To address this trade-off, we propose Generalized Geometry Encoding Volume (GGEV), a novel real-time stereo matching network that achieves strong generalization. We first extract depth-aware features that encode domain-invariant structural priors as guidance for cost aggregation. Subsequently, we introduce a Depth-aware Dynamic Cost Aggregation (DDCA) module that adaptively incorporates these priors into each disparity hypothesis, effectively enhancing fragile matching relationships in unseen scenes. Both steps are lightweight and complementary, leading to the construction of a generalized geometry encoding volume with strong generalization capability. Experimental results demonstrate that our GGEV surpasses all existing real-time methods in zero-shot generalization capability, and achieves state-of-the-art performance on the KITTI 2012, KITTI 2015, and ETH3D benchmarks.