SSRFlow: Semantic-aware Fusion with Spatial Temporal Re-embedding for Real-world Scene Flow

📄 arXiv: 2408.07825v1 📥 PDF

作者: Zhiyang Lu, Qinghan Chen, Zhimin Yuan, Ming Cheng

分类: cs.CV, cs.AI

发布日期: 2024-07-31

备注: 19 pages,12 figures. arXiv admin note: substantial text overlap with arXiv:2403.07032


💡 一句话要点

提出SSRFlow,通过语义感知融合和时空重嵌入解决真实场景下的场景流估计问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 场景流估计 点云处理 语义融合 时空重嵌入 领域自适应 深度学习 三维视觉

📋 核心要点

  1. 现有场景流方法缺乏全局流嵌入或仅考虑单帧上下文,导致难以感知另一帧的语义关系。
  2. 提出双重交叉注意力(DCA)进行语义融合对齐,并结合全局融合流嵌入(GF)初始化流嵌入。
  3. 设计时空重嵌入(STR)模块更新点序列特征,并利用领域自适应损失缩小合成数据与真实数据的差距。

📝 摘要(中文)

场景流提供了从两个连续点云中第一帧的三维运动场,对于动态场景感知至关重要。然而,现有的场景流方法面临三个主要挑战。首先,它们缺乏全局流嵌入,或者仅在嵌入之前考虑单个点云的上下文,导致嵌入点难以感知另一帧的一致语义关系。为了解决这个问题,我们提出了一种新颖的方法,称为双重交叉注意力(DCA),用于基于语义上下文的两帧之间的潜在融合和对齐。然后,将其集成到全局融合流嵌入(GF)中,以基于上下文和欧几里得空间中的全局相关性来初始化流嵌入。其次,在扭曲层之后,非刚性物体中存在变形,这会扭曲连续帧之间的时空关系。为了更精确地估计下一级的残余流,设计了时空重嵌入(STR)模块来更新当前级别的点序列特征。最后,由于合成数据集和激光雷达扫描数据集之间存在显着的领域差距,因此经常观察到泛化能力较差。我们利用新颖的领域自适应损失来有效地弥合从合成到真实世界的运动推理差距。实验表明,我们的方法在各种数据集上实现了最先进(SOTA)的性能,尤其是在真实世界的激光雷达扫描情况下表现出色。我们的代码将在发表后发布。

🔬 方法详解

问题定义:现有场景流方法在处理真实世界场景时面临挑战,主要体现在三个方面:缺乏全局语义信息的有效融合,导致难以捕捉跨帧的对应关系;扭曲操作后非刚性物体的形变破坏了时空一致性;合成数据与真实LiDAR数据之间的领域差异导致泛化能力差。这些问题限制了场景流在实际应用中的性能。

核心思路:SSRFlow的核心思路是利用语义信息增强特征表达,并在时空维度上进行重嵌入,从而更准确地估计场景流。通过双重交叉注意力机制实现跨帧的语义对齐,利用全局融合流嵌入初始化流,并设计时空重嵌入模块来校正形变带来的误差。同时,采用领域自适应损失来提升模型在真实数据上的泛化能力。

技术框架:SSRFlow的整体框架包含以下几个主要模块:1) 双重交叉注意力(DCA):用于融合两帧点云的语义信息,建立跨帧的对应关系。2) 全局融合流嵌入(GF):利用全局上下文信息初始化场景流嵌入。3) 时空重嵌入(STR):在每一层迭代中,更新点序列特征,校正形变带来的误差。4) 领域自适应损失:用于缩小合成数据与真实数据之间的领域差异。整个流程是一个多层迭代的残差流估计过程。

关键创新:SSRFlow的关键创新在于:1) 提出了双重交叉注意力机制,有效融合了跨帧的语义信息,解决了现有方法缺乏全局语义融合的问题。2) 设计了时空重嵌入模块,能够校正扭曲操作后非刚性物体的形变,提高了场景流估计的精度。3) 引入了领域自适应损失,显著提升了模型在真实LiDAR数据上的泛化能力。

关键设计:DCA模块采用多头注意力机制,捕捉不同语义空间中的相关性。GF模块利用全局上下文和欧几里得空间信息初始化流嵌入。STR模块通过GRU等序列模型更新点序列特征。领域自适应损失包括对抗损失和差异损失,用于对齐特征分布和运动模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SSRFlow在多个场景流数据集上取得了state-of-the-art的性能,尤其是在真实世界的LiDAR扫描数据集上表现突出。相较于现有方法,SSRFlow在精度和鲁棒性方面均有显著提升。实验结果表明,所提出的双重交叉注意力机制、时空重嵌入模块和领域自适应损失均对性能提升做出了重要贡献。

🎯 应用场景

SSRFlow在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。准确的场景流估计能够帮助自动驾驶系统更好地理解周围环境的动态变化,从而做出更安全、更合理的决策。在机器人导航中,场景流可以用于构建动态地图,提高机器人的定位和避障能力。在增强现实中,场景流可以用于实现更逼真的虚拟物体与真实场景的交互。

📄 摘要(原文)

Scene flow, which provides the 3D motion field of the first frame from two consecutive point clouds, is vital for dynamic scene perception. However, contemporary scene flow methods face three major challenges. Firstly, they lack global flow embedding or only consider the context of individual point clouds before embedding, leading to embedded points struggling to perceive the consistent semantic relationship of another frame. To address this issue, we propose a novel approach called Dual Cross Attentive (DCA) for the latent fusion and alignment between two frames based on semantic contexts. This is then integrated into Global Fusion Flow Embedding (GF) to initialize flow embedding based on global correlations in both contextual and Euclidean spaces. Secondly, deformations exist in non-rigid objects after the warping layer, which distorts the spatiotemporal relation between the consecutive frames. For a more precise estimation of residual flow at next-level, the Spatial Temporal Re-embedding (STR) module is devised to update the point sequence features at current-level. Lastly, poor generalization is often observed due to the significant domain gap between synthetic and LiDAR-scanned datasets. We leverage novel domain adaptive losses to effectively bridge the gap of motion inference from synthetic to real-world. Experiments demonstrate that our approach achieves state-of-the-art (SOTA) performance across various datasets, with particularly outstanding results in real-world LiDAR-scanned situations. Our code will be released upon publication.