Learning Flow-Guided Registration for RGB-Event Semantic Segmentation
作者: Zhen Yao, Xiaowen Ying, Zhiyu Zhu, Mooi Choo Chuah
分类: cs.CV
发布日期: 2025-05-02 (更新: 2025-09-25)
备注: 20 pages, 14 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出BRENet,通过光流引导配准解决RGB-Event语义分割中的模态不对齐问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: RGB-Event语义分割 事件相机 光流引导 模态配准 运动增强事件张量
📋 核心要点
- 现有RGB-Event语义分割方法忽略了时空和模态不对齐问题,导致融合效果不佳。
- BRENet通过光流引导双向配准,自适应匹配RGB和Event模态的对应关系,弥合模态差距。
- 实验表明,BRENet在多个数据集上表现出色,证明了流引导配准在RGB-Event分割中的潜力。
📝 摘要(中文)
事件相机能够捕捉微秒级运动信息,与RGB传感器形成互补。然而,目前将RGB-Event感知视为融合问题的范式并不完善,因为它忽略了固有的(i)时空和(ii)模态不对齐问题,这与其他RGB-X感知领域不同。为了解决这些限制,我们将RGB-Event分割从融合问题重新定义为配准问题。我们提出了BRENet,一种新颖的流引导双向框架,能够自适应地匹配非对称模态之间的对应关系。具体来说,它利用时间对齐的光流作为粗粒度引导,结合细粒度的事件时间特征,生成精确的前向和后向像素配对以进行配准。这种配对机制将固有的运动滞后转化为受光流估计误差控制的项,从而弥合模态差距。此外,我们引入了运动增强事件张量(MET),一种新的表示方法,将稀疏事件流转换为密集、时间连贯的形式。在四个大型数据集上的大量实验验证了我们的方法,确立了流引导配准作为RGB-Event分割的一个有希望的方向。代码已开源。
🔬 方法详解
问题定义:RGB-Event语义分割旨在融合RGB图像和事件数据以实现像素级别的语义理解。然而,由于RGB图像和事件数据在时空分辨率和信息表达上的差异,直接融合面临着严重的时空和模态不对齐问题。现有方法通常将二者视为简单的融合问题,忽略了这种不对齐性,导致分割精度受限。
核心思路:BRENet的核心思路是将RGB-Event语义分割问题转化为配准问题。通过利用光流来建立RGB图像和事件数据之间的像素级对应关系,从而实现模态间的对齐。这种方法避免了直接融合带来的不对齐问题,并能够更有效地利用事件数据中的运动信息。
技术框架:BRENet是一个双向框架,包含以下主要模块:1) 光流估计模块:用于估计RGB图像序列的光流,提供粗粒度的运动信息。2) 运动增强事件张量(MET)生成模块:将稀疏的事件流转换为密集且时间连贯的表示。3) 前向配准模块:利用光流和事件特征,将RGB特征配准到事件特征空间。4) 后向配准模块:利用光流和事件特征,将事件特征配准到RGB特征空间。5) 分割模块:融合配准后的RGB和事件特征,进行语义分割。
关键创新:BRENet的关键创新在于使用光流引导的配准机制。与直接融合不同,该方法通过光流建立像素级的对应关系,从而显式地解决了模态不对齐问题。此外,MET的引入使得事件数据能够以更有效的方式被利用。
关键设计:BRENet使用预训练的光流估计网络来提取光流信息。MET通过将事件数据划分为时间窗口,并在每个窗口内统计事件数量来生成。前向和后向配准模块使用类似的结构,都包含一个注意力机制,用于自适应地调整不同特征的权重。损失函数包括分割损失和配准损失,用于优化分割精度和配准效果。
🖼️ 关键图片
📊 实验亮点
BRENet在四个大型数据集上进行了广泛的实验,包括DDD20、DSEC、HQF和1 Mpx。实验结果表明,BRENet在所有数据集上都取得了显著的性能提升,优于现有的RGB-Event语义分割方法。例如,在DSEC数据集上,BRENet的mIoU指标比最先进的方法提高了超过3个百分点,证明了其有效性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、视频监控等领域。在这些场景中,RGB图像和事件数据可以互补,提高感知系统的鲁棒性和准确性,尤其是在光照条件不佳或快速运动的情况下。例如,在自动驾驶中,可以利用事件相机检测快速移动的物体,并结合RGB图像进行精确的语义分割,从而提高驾驶安全性。
📄 摘要(原文)
Event cameras capture microsecond-level motion cues that complement RGB sensors. However, the prevailing paradigm of treating RGB-Event perception as a fusion problem is ill-posed, as it ignores the intrinsic (i) Spatiotemporal and (ii) Modal Misalignment, unlike other RGB-X sensing domains. To tackle these limitations, we recast RGB-Event segmentation from fusion to registration. We propose BRENet, a novel flow-guided bidirectional framework that adaptively matches correspondence between the asymmetric modalities. Specifically, it leverages temporally aligned optical flows as a coarse-grained guide, along with fine-grained event temporal features, to generate precise forward and backward pixel pairings for registration. This pairing mechanism converts the inherent motion lag into terms governed by flow estimation error, bridging modality gaps. Moreover, we introduce Motion-Enhanced Event Tensor (MET), a new representation that transforms sparse event streams into a dense, temporally coherent form. Extensive experiments on four large-scale datasets validate our approach, establishing flow-guided registration as a promising direction for RGB-Event segmentation. Our code is available at: https://github.com/zyaocoder/BRENet.