Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching

作者: Bowen Wen, Shaurya Dewan, Stan Birchfield

分类: cs.CV, cs.RO

发布日期: 2025-12-11

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Fast-FoundationStereo：实时零样本立体匹配，兼顾速度与泛化性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 立体匹配 零样本学习 知识蒸馏 神经架构搜索 结构化剪枝 实时性 深度估计

📋 核心要点

现有立体匹配模型在速度和泛化性上存在trade-off，高效模型依赖领域微调，而foundation模型计算量大难以实时。
Fast-FoundationStereo通过知识蒸馏、神经架构搜索和结构化剪枝等技术，在保证零样本泛化能力的同时，显著提升了速度。
该方法在速度上比FoundationStereo快10倍以上，同时保持了接近的零样本精度，达到了实时立体匹配的新高度。

📝 摘要（中文）

本文提出Fast-FoundationStereo，一种能够在实时帧率下实现强大零样本泛化能力的立体匹配架构。该方法采用分而治之的加速策略，包含三个组成部分：(1)知识蒸馏，将混合骨干网络压缩成单个高效的学生网络；(2)块状神经架构搜索，在延迟预算下自动发现最优的代价过滤设计，指数级地降低搜索复杂度；(3)结构化剪枝，消除迭代细化模块中的冗余。此外，本文还引入了一个自动伪标签生成流程，用于生成140万个真实场景立体图像对，以补充合成训练数据并促进知识蒸馏。最终模型比FoundationStereo快10倍以上，同时保持了接近的零样本精度，从而在实时方法中建立了新的state-of-the-art。

🔬 方法详解

问题定义：现有的立体匹配方法要么为了速度牺牲了鲁棒性和泛化能力，需要针对特定领域进行微调；要么虽然具有强大的零样本泛化能力（如基于Foundation Model的方法），但计算复杂度过高，无法满足实时应用的需求。因此，如何在保证零样本泛化能力的同时，实现实时立体匹配是一个关键问题。

核心思路：Fast-FoundationStereo的核心思路是采用“分而治之”的加速策略，通过知识蒸馏压缩模型，利用神经架构搜索优化代价过滤，并通过结构化剪枝减少冗余，从而在不牺牲精度的前提下大幅提升速度。同时，利用自动伪标签生成流程，扩充训练数据集，提升模型的泛化能力。

技术框架：Fast-FoundationStereo的整体框架包含以下几个主要模块：1) 混合骨干网络：使用预训练的视觉模型提取特征。2) 知识蒸馏：将混合骨干网络的知识迁移到单个高效的学生网络。3) 块状神经架构搜索：自动搜索最优的代价过滤模块结构。4) 迭代细化模块：对视差图进行迭代优化。5) 结构化剪枝：消除迭代细化模块中的冗余。6) 自动伪标签生成：生成大规模的真实场景立体图像对。

关键创新：该方法最重要的技术创新点在于将知识蒸馏、神经架构搜索和结构化剪枝三种技术有效地结合起来，实现了在保证零样本泛化能力的同时，大幅提升立体匹配速度的目标。此外，自动伪标签生成流程也为模型的训练提供了更多的数据支持。

关键设计：在知识蒸馏方面，采用了合适的损失函数来保证学生网络能够有效地学习到教师网络的知识。在神经架构搜索方面，采用了块状搜索策略，降低了搜索空间，提高了搜索效率。在结构化剪枝方面，采用了针对迭代细化模块的特定剪枝策略，有效地减少了冗余。自动伪标签生成流程利用现有的立体匹配算法生成初始视差图，然后进行过滤和优化，生成高质量的伪标签。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Fast-FoundationStereo在多个数据集上都取得了优异的性能。例如，在KITTI数据集上，该方法比FoundationStereo快10倍以上，同时保持了接近的零样本精度。此外，该方法还在其他数据集上表现出强大的泛化能力，证明了其在实际应用中的潜力。

🎯 应用场景

Fast-FoundationStereo具有广泛的应用前景，例如自动驾驶、机器人导航、增强现实等领域。该方法能够在资源受限的平台上实现实时高精度的立体匹配，为这些应用提供可靠的深度信息，从而提升系统的感知能力和决策能力。未来，该方法还可以进一步扩展到其他视觉任务中，例如三维重建、场景理解等。

📄 摘要（原文）

Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/

Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理