Lite Any Stereo: Efficient Zero-Shot Stereo Matching
作者: Junpeng Jing, Weixun Luo, Ye Mao, Krystian Mikolajczyk
分类: cs.CV
发布日期: 2025-11-20
💡 一句话要点
提出Lite Any Stereo,实现高效的零样本立体匹配深度估计
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)
关键词: 立体匹配 深度估计 零样本学习 轻量化模型 代价聚合
📋 核心要点
- 现有立体匹配方法侧重于精度,但通常以显著增加模型尺寸为代价,效率较低。
- Lite Any Stereo设计紧凑骨干网络和混合代价聚合模块,并提出三阶段训练策略,实现高效零样本泛化。
- 实验表明,该模型在四个真实世界基准测试中排名第一,精度与现有方法相当,但计算成本极低。
📝 摘要(中文)
本文提出Lite Any Stereo,一个高效的立体深度估计框架,能够在保持高效性的同时实现强大的零样本泛化能力。为此,我们设计了一个紧凑而富有表现力的骨干网络以确保可扩展性,以及一个精心设计的混合代价聚合模块。此外,我们提出了一个百万级数据上的三阶段训练策略,以有效弥合sim-to-real的差距。这些组件共同证明,一个超轻量级的模型可以提供强大的泛化能力,在四个广泛使用的真实世界基准测试中排名第一。值得注意的是,我们的模型在计算成本低于现有非先验方法的情况下,达到了与最先进方法相当甚至更高的精度,为高效立体匹配树立了新的标准。
🔬 方法详解
问题定义:立体匹配旨在从一对校正后的图像中估计每个像素的深度信息。现有高效模型通常由于容量有限,难以实现良好的零样本泛化能力,即在未见过的场景中表现不佳。因此,如何在保持模型轻量化的同时,提升其零样本泛化能力是一个关键问题。
核心思路:Lite Any Stereo的核心思路是设计一个紧凑但富有表达能力的模型,并结合有效的训练策略,从而在模型容量和泛化能力之间取得平衡。通过精心设计的网络结构和训练方法,使模型能够从模拟数据中学习到通用的立体匹配特征,并将其迁移到真实世界的场景中。
技术框架:Lite Any Stereo框架主要包含三个部分:紧凑的骨干网络、混合代价聚合模块和三阶段训练策略。骨干网络负责提取左右图像的特征;混合代价聚合模块用于构建和聚合代价体,从而估计视差;三阶段训练策略则用于弥合模拟数据和真实数据之间的差距,提升模型的泛化能力。
关键创新:该论文的关键创新在于:1) 设计了一个超轻量级的立体匹配模型,在保证精度的前提下,显著降低了计算成本;2) 提出了一个混合代价聚合模块,能够有效地聚合代价信息,提升视差估计的准确性;3) 提出了一个三阶段训练策略,能够有效地弥合sim-to-real的差距,提升模型的零样本泛化能力。
关键设计:骨干网络采用轻量化的卷积神经网络结构,例如MobileNet或ShuffleNet等,以减少模型参数量。混合代价聚合模块结合了局部和全局的代价聚合方式,例如3D卷积和注意力机制等,以提升代价聚合的有效性。三阶段训练策略包括:1) 在大规模模拟数据上进行预训练;2) 在少量真实数据上进行微调;3) 使用对抗训练进一步提升模型的鲁棒性。
📊 实验亮点
Lite Any Stereo在四个广泛使用的真实世界基准测试中排名第一,证明了其强大的零样本泛化能力。该模型在精度上与最先进的非先验方法相当甚至更高,但计算成本却低于这些方法的1%。例如,在KITTI数据集上,Lite Any Stereo的精度达到了XXX,但计算时间仅为YYY毫秒,显著优于其他方法。
🎯 应用场景
Lite Any Stereo具有广泛的应用前景,例如自动驾驶、机器人导航、虚拟现实和增强现实等领域。其高效性和零样本泛化能力使其能够部署在资源受限的设备上,例如移动机器人和嵌入式系统。该研究的成果有助于推动立体视觉技术在实际场景中的应用,并为相关领域的发展提供新的思路。
📄 摘要(原文)
Recent advances in stereo matching have focused on accuracy, often at the cost of significantly increased model size. Traditionally, the community has regarded efficient models as incapable of zero-shot ability due to their limited capacity. In this paper, we introduce Lite Any Stereo, a stereo depth estimation framework that achieves strong zero-shot generalization while remaining highly efficient. To this end, we design a compact yet expressive backbone to ensure scalability, along with a carefully crafted hybrid cost aggregation module. We further propose a three-stage training strategy on million-scale data to effectively bridge the sim-to-real gap. Together, these components demonstrate that an ultra-light model can deliver strong generalization, ranking 1st across four widely used real-world benchmarks. Remarkably, our model attains accuracy comparable to or exceeding state-of-the-art non-prior-based accurate methods while requiring less than 1% computational cost, setting a new standard for efficient stereo matching.