$x^2$-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space

📄 arXiv: 2603.16671v1 📥 PDF

作者: Ruishan Guo, Ciyu Ruan, Haoyang Wang, Zihang Gong, Jingao Xu, Xinlei Chen

分类: cs.CV

发布日期: 2026-03-17

备注: This version is the camera-ready version accepted at CVPR 2026


💡 一句话要点

提出$x^2$-Fusion,通过事件边缘空间统一多模态特征,提升动态场景光流和场景流估计精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 事件相机 光流估计 场景流估计 深度学习 表征学习 事件边缘空间

📋 核心要点

  1. 现有方法在异构特征空间中融合多模态数据,导致跨传感器不匹配,融合过程复杂。
  2. 提出$x^2$-Fusion,利用事件相机提供的时空边缘信号构建统一的事件边缘空间,对齐图像和激光雷达特征。
  3. 实验表明,$x^2$-Fusion在标准条件下达到SOTA精度,并在复杂场景中显著提升性能。

📝 摘要(中文)

动态场景理解的关键在于估计稠密的2D光流和3D场景流。现有方法通常结合图像、激光雷达和事件数据来联合预测2D和3D运动,但大多在分离的异构特征空间中操作。由于缺乏所有模态可以对齐的共享潜在空间,这些系统依赖于多个模态特定的模块,导致跨传感器不匹配问题无法解决,并使融合过程变得不必要的复杂。本文提出$x^2$-Fusion,将多模态融合重新定义为表征统一:事件相机提供的时空边缘信号可以被视为内在边缘场,用于锚定一个统一的潜在表示,即事件边缘空间。图像和激光雷达特征在这个共享表示中被显式对齐。在该空间内,我们执行可靠性感知自适应融合,以估计模态可靠性并强调退化情况下的稳定线索。我们还采用跨维度对比学习,将2D光流与3D场景流紧密耦合。在合成和真实基准上的大量实验表明,$x^2$-Fusion在标准条件下实现了最先进的精度,并在具有挑战性的场景中提供了显著的改进。

🔬 方法详解

问题定义:现有方法在融合图像、激光雷达和事件数据时,通常在各自独立的特征空间进行操作,缺乏一个统一的潜在空间来对齐不同模态的信息。这导致跨传感器的数据不匹配问题,增加了融合的复杂性,并且难以充分利用不同模态之间的互补信息。因此,如何有效地融合多模态数据,特别是在具有挑战性的场景下,是一个亟待解决的问题。

核心思路:$x^2$-Fusion的核心思路是将多模态融合问题转化为表征统一问题。具体来说,利用事件相机天然提供的时空边缘信息,构建一个统一的“事件边缘空间”。这个空间可以被视为一个内在的边缘场,作为所有模态特征对齐的锚点。通过将图像和激光雷达的特征显式地对齐到这个共享的事件边缘空间,可以有效地解决跨传感器的数据不匹配问题,并简化融合过程。

技术框架:$x^2$-Fusion的整体框架包含以下几个主要阶段:1) 事件边缘空间构建:利用事件相机数据提取时空边缘信息,构建事件边缘空间。2) 特征对齐:将图像和激光雷达的特征投影到事件边缘空间,实现多模态特征的对齐。3) 可靠性感知自适应融合:在事件边缘空间中,根据模态的可靠性进行自适应融合,强调在退化情况下更稳定的线索。4) 跨维度对比学习:通过对比学习,将2D光流和3D场景流紧密耦合,提升整体性能。

关键创新:$x^2$-Fusion最重要的创新点在于提出了“事件边缘空间”的概念,并将其作为多模态特征对齐的统一潜在空间。与现有方法在异构特征空间中进行融合不同,$x^2$-Fusion通过事件边缘空间,将多模态融合问题转化为一个同构空间的表征学习问题。这种方法能够更有效地解决跨传感器的数据不匹配问题,并简化融合过程。

关键设计:在事件边缘空间构建方面,使用了事件数据的时空梯度信息来提取边缘特征。在特征对齐方面,使用了可学习的投影矩阵将图像和激光雷达特征映射到事件边缘空间。在可靠性感知自适应融合方面,设计了一个注意力机制来估计每个模态的可靠性,并根据可靠性权重进行融合。在跨维度对比学习方面,设计了一个对比损失函数,鼓励2D光流和3D场景流在特征空间中保持一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,$x^2$-Fusion在合成和真实数据集上均取得了显著的性能提升。在标准条件下,该方法达到了最先进的精度。在具有挑战性的场景中,例如光照变化剧烈或传感器数据缺失的情况下,$x^2$-Fusion的性能提升更为明显,证明了其在复杂环境下的鲁棒性。具体而言,在某些场景下,该方法的光流估计精度提升了5%以上。

🎯 应用场景

$x^2$-Fusion在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。通过融合事件相机、图像和激光雷达等多模态数据,可以更准确地估计场景中的运动信息,提高系统在复杂环境下的感知能力。该研究的成果有助于提升自动驾驶系统的安全性和可靠性,并为机器人提供更精确的环境理解能力。

📄 摘要(原文)

Estimating dense 2D optical flow and 3D scene flow is essential for dynamic scene understanding. Recent work combines images, LiDAR, and event data to jointly predict 2D and 3D motion, yet most approaches operate in separate heterogeneous feature spaces. Without a shared latent space that all modalities can align to, these systems rely on multiple modality-specific blocks, leaving cross-sensor mismatches unresolved and making fusion unnecessarily complex.Event cameras naturally provide a spatiotemporal edge signal, which we can treat as an intrinsic edge field to anchor a unified latent representation, termed the Event Edge Space. Building on this idea, we introduce $x^2$-Fusion, which reframes multimodal fusion as representation unification: event-derived spatiotemporal edges define an edge-centric homogeneous space, and image and LiDAR features are explicitly aligned in this shared representation.Within this space, we perform reliability-aware adaptive fusion to estimate modality reliability and emphasize stable cues under degradation. We further employ cross-dimension contrast learning to tightly couple 2D optical flow with 3D scene flow. Extensive experiments on both synthetic and real benchmarks show that $x^2$-Fusion achieves state-of-the-art accuracy under standard conditions and delivers substantial improvements in challenging scenarios.