{S\textsuperscript{2}M\textsuperscript{2}}: Scalable Stereo Matching Model for Reliable Depth Estimation
作者: Junhong Min, Youngpil Jeon, Jimin Kim, Minyong Choi
分类: cs.CV, cs.AI, cs.RO
发布日期: 2025-07-17 (更新: 2025-10-11)
备注: 8 pages, 5 figures, ICCV accepted paper
💡 一句话要点
提出S²M²:一种可扩展的立体匹配模型,用于可靠的深度估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 立体匹配 深度估计 Transformer 多分辨率 全局匹配 长程依赖 损失函数
📋 核心要点
- 现有立体匹配模型难以在不同分辨率和视差范围内泛化,局部搜索方法精度高但缺乏全局一致性。
- S²M²采用全局匹配架构,利用多分辨率Transformer进行长程对应关系建模,提升泛化能力。
- S²M²在Middlebury v3和ETH3D基准测试中取得了新的state-of-the-art,性能显著提升。
📝 摘要(中文)
本文提出了一种可扩展的立体匹配模型S²M²,旨在解决通用立体匹配模型在不同分辨率和视差范围下泛化能力不足的问题。现有方法在特定数据集上表现良好,但依赖于迭代局部搜索,限制了全局一致性。全局匹配架构虽然理论上更鲁棒,但计算和内存成本过高。S²M²通过结合多分辨率Transformer进行长程对应关系建模,并设计了一种新的损失函数来集中概率于可行的匹配,从而实现了最先进的精度和高效率,无需代价体滤波或深度细化堆栈。该方法能够更鲁棒地联合估计视差、遮挡和置信度。在Middlebury v3和ETH3D基准测试中,S²M²取得了新的state-of-the-art,并在大多数指标上显著优于现有方法,同时以具有竞争力的效率重建高质量的细节。
🔬 方法详解
问题定义:现有立体匹配模型在通用性方面存在瓶颈,尤其是在处理不同分辨率和视差范围的图像时。基于迭代局部搜索的方法虽然在特定数据集上表现出色,但其固有的局部性限制了全局一致性,导致泛化能力不足。全局匹配架构理论上更具鲁棒性,但计算和内存成本使其难以实际应用。
核心思路:S²M²的核心思路是设计一种高效且全局一致的立体匹配架构,该架构能够克服传统全局匹配方法的计算瓶颈,并实现跨数据集的良好泛化能力。通过引入多分辨率Transformer,模型能够捕获长程依赖关系,从而提高匹配的准确性和鲁棒性。
技术框架:S²M²的整体架构包含以下主要模块:1) 多分辨率特征提取:使用多层卷积神经网络提取不同分辨率的图像特征。2) 多分辨率Transformer:利用Transformer对不同分辨率的特征进行长程对应关系建模。3) 视差预测:基于Transformer的输出预测视差图。4) 损失函数:设计新的损失函数,集中概率于可行的匹配,并联合优化视差、遮挡和置信度。
关键创新:S²M²的关键创新在于其高效的全局匹配架构和新的损失函数。多分辨率Transformer能够有效地捕获长程依赖关系,而无需进行代价体滤波或深度细化堆栈,从而显著降低了计算成本。新的损失函数能够更鲁棒地联合估计视差、遮挡和置信度,提高了匹配的准确性和鲁棒性。与现有方法相比,S²M²在精度和效率之间取得了更好的平衡。
关键设计:在多分辨率Transformer中,使用了多个Transformer层来逐步细化特征表示。损失函数包括视差损失、遮挡损失和置信度损失,并采用加权的方式进行联合优化。为了进一步提高效率,模型采用了稀疏注意力机制,减少了Transformer的计算量。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
S²M²在Middlebury v3和ETH3D基准测试中取得了新的state-of-the-art。在Middlebury v3上,S²M²在大多数指标上显著优于现有方法。在ETH3D上,S²M²也取得了具有竞争力的性能,同时保持了较高的效率。具体性能数据未知。
🎯 应用场景
S²M²具有广泛的应用前景,包括自动驾驶、机器人导航、三维重建、虚拟现实等领域。该模型能够提供准确和可靠的深度信息,为这些应用提供重要的感知能力。未来,S²M²可以进一步扩展到其他视觉任务,例如场景理解和目标检测。
📄 摘要(原文)
The pursuit of a generalizable stereo matching model, capable of performing well across varying resolutions and disparity ranges without dataset-specific fine-tuning, has revealed a fundamental trade-off. Iterative local search methods achieve high scores on constrained benchmarks, but their core mechanism inherently limits the global consistency required for true generalization. However, global matching architectures, while theoretically more robust, have historically been rendered infeasible by prohibitive computational and memory costs. We resolve this dilemma with {S\textsuperscript{2}M\textsuperscript{2}}: a global matching architecture that achieves state-of-the-art accuracy and high efficiency without relying on cost volume filtering or deep refinement stacks. Our design integrates a multi-resolution transformer for robust long-range correspondence, trained with a novel loss function that concentrates probability on feasible matches. This approach enables a more robust joint estimation of disparity, occlusion, and confidence. {S\textsuperscript{2}M\textsuperscript{2}} establishes a new state of the art on Middlebury v3 and ETH3D benchmarks, significantly outperforming prior methods in most metrics while reconstructing high-quality details with competitive efficiency.