RAFT-MSF++: Temporal Geometry-Motion Feature Fusion for Self-Supervised Monocular Scene Flow
作者: Xunpei Sun, Zuoxun Hou, Yi Chang, Gang Chen, Wei-Shi Zheng
分类: cs.CV
发布日期: 2026-04-21
备注: This work has been submitted to the IEEE for possible publication
🔗 代码/项目: GITHUB
💡 一句话要点
RAFT-MSF++:时序几何-运动特征融合的自监督单目场景流估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目场景流 自监督学习 时间特征融合 几何-运动特征 遮挡处理
📋 核心要点
- 现有单目场景流方法主要依赖双帧输入,限制了时间建模能力和对遮挡的处理。
- RAFT-MSF++通过递归融合时序特征,并引入几何-运动特征(GMF)来联合估计深度和场景流。
- 实验表明,该方法在KITTI场景流基准上显著优于现有方法,尤其在遮挡区域表现更佳。
📝 摘要(中文)
单目场景流估计旨在从图像序列中恢复密集的3D运动,但现有方法大多局限于双帧输入,限制了时间建模和对遮挡的鲁棒性。我们提出了RAFT-MSF++,一个自监督的多帧框架,它递归地融合时间特征以联合估计深度和场景流。我们方法的核心是几何-运动特征(GMF),它紧凑地编码了耦合的运动和几何线索,并迭代更新以进行有效的时间推理。为了确保这种时间融合对遮挡的鲁棒性,我们结合了相对位置注意力来注入空间先验,以及一个遮挡正则化模块来传播来自可见区域的可靠运动。这些组件使GMF能够有效地传播信息,即使在模糊区域也是如此。大量实验表明,RAFT-MSF++在KITTI场景流基准测试中实现了24.14%的SF-all,比基线提高了30.99%,并且在遮挡区域具有更好的鲁棒性。代码可在https://github.com/sunzunyi/RAFT-MSF-PlusPlus上找到。
🔬 方法详解
问题定义:单目场景流估计旨在从连续的图像序列中恢复场景中每个像素的3D运动信息。现有的方法通常只使用相邻两帧图像,忽略了更长时间范围内的信息,导致时间建模能力不足,并且在存在遮挡的情况下,估计精度会显著下降。
核心思路:RAFT-MSF++的核心思路是利用多帧图像信息,通过递归的方式融合时间特征,从而更准确地估计场景流和深度。该方法引入了几何-运动特征(GMF),将运动和几何信息紧凑地编码在一起,并通过迭代更新的方式进行时间推理。
技术框架:RAFT-MSF++的整体框架是一个循环神经网络结构,它以RAFT为基础,并进行了扩展。该框架主要包含以下几个模块:特征提取模块(提取图像特征)、GMF更新模块(递归更新几何-运动特征)、场景流和深度估计模块(基于GMF估计场景流和深度)。此外,还引入了相对位置注意力和遮挡正则化模块,以提高对遮挡的鲁棒性。
关键创新:该论文的关键创新在于提出了几何-运动特征(GMF),它能够有效地编码和融合运动和几何信息,并通过迭代更新的方式进行时间推理。此外,相对位置注意力和遮挡正则化模块的引入,进一步提高了该方法在遮挡情况下的鲁棒性。与现有方法相比,RAFT-MSF++能够利用更长时间范围内的信息,从而更准确地估计场景流和深度。
关键设计:GMF的更新过程采用GRU结构,通过门控机制控制信息的流动。相对位置注意力模块利用相对位置编码来增强空间信息的表达能力。遮挡正则化模块通过约束相邻像素的运动一致性来抑制遮挡区域的噪声。损失函数包括光度一致性损失、深度一致性损失和运动平滑损失等,用于约束场景流和深度的估计。
🖼️ 关键图片
📊 实验亮点
RAFT-MSF++在KITTI场景流基准测试中取得了显著的性能提升,SF-all指标达到了24.14%,相比于基线方法提高了30.99%。尤其值得一提的是,该方法在遮挡区域的鲁棒性得到了显著提升,表明了其在复杂场景下的实用性。代码已开源,方便研究人员进行复现和进一步研究。
🎯 应用场景
RAFT-MSF++在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。准确的场景流估计可以帮助自动驾驶系统理解周围环境的运动状态,从而做出更安全的决策。在机器人导航中,场景流可以用于构建环境地图和进行路径规划。在增强现实中,场景流可以用于将虚拟物体与真实场景进行精确的对齐和交互。
📄 摘要(原文)
Monocular scene flow estimation aims to recover dense 3D motion from image sequences, yet most existing methods are limited to two-frame inputs, restricting temporal modeling and robustness to occlusions. We propose RAFT-MSF++, a self-supervised multi-frame framework that recurrently fuses temporal features to jointly estimate depth and scene flow. Central to our approach is the Geometry-Motion Feature (GMF), which compactly encodes coupled motion and geometry cues and is iteratively updated for effective temporal reasoning. To ensure the robustness of this temporal fusion against occlusions, we incorporate relative positional attention to inject spatial priors and an occlusion regularization module to propagate reliable motion from visible regions. These components enable the GMF to effectively propagate information even in ambiguous areas. Extensive experiments show that RAFT-MSF++ achieves 24.14% SF-all on the KITTI Scene Flow benchmark, with a 30.99% improvement over the baseline and better robustness in occluded regions. The code is available at https://github.com/sunzunyi/RAFT-MSF-PlusPlus.