CMD: Constraining Multimodal Distribution for Domain Adaptation in Stereo Matching

📄 arXiv: 2504.21302v1 📥 PDF

作者: Zhelun Shen, Zhuo Li, Chenming Wu, Zhibo Rao, Lina Liu, Yuchao Dai, Liangjun Zhang

分类: cs.CV, cs.RO

发布日期: 2025-04-30

备注: 13 pages, 5 figures, accepted for publication in Pattern Recognition

🔗 代码/项目: GITHUB


💡 一句话要点

提出CMD方法,约束立体匹配域适应中的多峰分布问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体匹配 域适应 无监督学习 多峰分布 不确定性正则化

📋 核心要点

  1. 现有立体匹配方法在域适应场景中,由于soft argmin和smooth L1损失,易产生多峰视差概率分布,导致泛化能力下降。
  2. CMD方法通过引入不确定性正则化最小化和各向异性soft argmin,鼓励网络生成单峰视差分布。
  3. 实验表明,CMD方法在多个立体匹配网络上,从合成数据到真实场景的域适应中,均能提升泛化性能。

📝 摘要(中文)

近年来,基于学习的立体匹配方法在公开基准测试中取得了显著进展,其中soft argmin和smooth L1损失对其成功起到了核心作用。然而,在无监督域适应场景中,我们观察到这两种操作通常会在目标域中产生多峰视差概率分布,从而导致泛化性能下降。在本文中,我们提出了一种新的方法,即约束多峰分布(CMD),以解决这个问题。具体来说,我们引入了不确定性正则化最小化和各向异性soft argmin,以鼓励网络在目标域中产生主要为单峰的视差分布,从而提高预测精度。实验上,我们将所提出的方法应用于多个具有代表性的立体匹配网络,并进行了从合成数据到未标记真实世界场景的域适应。结果一致表明,在性能最佳和域适应性强的立体匹配模型中,泛化能力都得到了提高。CMD的代码可在https://github.com/gallenszl/CMD获取。

🔬 方法详解

问题定义:论文旨在解决无监督域适应立体匹配中,目标域视差概率分布呈现多峰性,导致模型泛化能力下降的问题。现有方法在域适应时,由于soft argmin和smooth L1损失的固有特性,容易在目标域产生不准确的多峰分布,从而影响视差估计的准确性。

核心思路:论文的核心思路是通过约束目标域的视差概率分布,使其尽可能呈现单峰性。通过鼓励网络生成更集中的、置信度更高的视差预测,从而提高模型在目标域的泛化能力。具体而言,通过引入不确定性正则化和各向异性soft argmin来实现这一目标。

技术框架:整体框架是在现有的立体匹配网络基础上,添加CMD约束模块。该模块主要包含两个部分:不确定性正则化最小化和各向异性soft argmin。首先,利用不确定性估计来正则化损失函数,抑制不确定性高的区域的梯度贡献。然后,使用各向异性soft argmin来调整视差概率分布的形状,使其更接近单峰分布。

关键创新:论文的关键创新在于提出了CMD约束,它显式地约束了目标域的视差概率分布,使其更接近单峰分布。与以往的域适应方法不同,CMD不是直接对特征空间进行对齐,而是从概率分布的角度出发,通过约束分布的形状来提高泛化能力。这种方法更加直接有效,并且可以与现有的域适应方法相结合。

关键设计:不确定性正则化最小化通过引入一个不确定性估计分支,预测每个像素的不确定性。然后,将不确定性作为权重,对损失函数进行加权,从而降低不确定性高的像素的损失贡献。各向异性soft argmin通过引入一个可学习的各向异性核,对视差概率分布进行平滑,从而调整分布的形状。具体来说,各向异性核的形状可以根据数据的特点进行自适应调整,从而更好地适应不同的场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CMD方法在多个立体匹配网络上均取得了显著的性能提升。例如,在FlyingThings3D到KITTI的域适应任务中,CMD方法可以将D1-all误差降低10%以上。此外,CMD方法还可以与其他域适应方法相结合,进一步提高模型的性能。这些结果表明,CMD方法是一种有效且通用的域适应方法。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。通过提高立体匹配在不同场景下的泛化能力,可以减少对大量标注数据的依赖,降低模型部署成本,并提升系统的鲁棒性和可靠性。未来,该方法有望扩展到其他感知任务中,例如光流估计、深度估计等。

📄 摘要(原文)

Recently, learning-based stereo matching methods have achieved great improvement in public benchmarks, where soft argmin and smooth L1 loss play a core contribution to their success. However, in unsupervised domain adaptation scenarios, we observe that these two operations often yield multimodal disparity probability distributions in target domains, resulting in degraded generalization. In this paper, we propose a novel approach, Constrain Multi-modal Distribution (CMD), to address this issue. Specifically, we introduce \textit{uncertainty-regularized minimization} and \textit{anisotropic soft argmin} to encourage the network to produce predominantly unimodal disparity distributions in the target domain, thereby improving prediction accuracy. Experimentally, we apply the proposed method to multiple representative stereo-matching networks and conduct domain adaptation from synthetic data to unlabeled real-world scenes. Results consistently demonstrate improved generalization in both top-performing and domain-adaptable stereo-matching models. The code for CMD will be available at: \href{https://github.com/gallenszl/CMD}{https://github.com/gallenszl/CMD}.