OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies

📄 arXiv: 2405.05259v1 📥 PDF

作者: Lingdong Kong, Youquan Liu, Lai Xing Ng, Benoit R. Cottereau, Wei Tsang Ooi

分类: cs.CV, cs.RO

发布日期: 2024-05-08

备注: CVPR 2024 (Highlight); 26 pages, 12 figures, 11 tables; Code at https://github.com/ldkong1205/OpenESS


💡 一句话要点

提出OpenESS,利用图像-文本知识迁移实现开放词汇的事件语义场景理解。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件语义分割 开放词汇 跨模态学习 知识蒸馏 对比学习 CLIP 事件相机

📋 核心要点

  1. 事件语义分割任务面临事件数据标注困难和可扩展性差的挑战。
  2. OpenESS通过迁移图像-文本对的CLIP知识到事件流,实现开放词汇的语义分割。
  3. 提出的帧到事件对比蒸馏和文本到事件语义一致性正则化,提升了跨模态自适应效果。

📝 摘要(中文)

事件语义分割(ESS)是基于事件相机的基本但具有挑战性的任务。解释和标注事件数据的困难限制了其可扩展性。虽然从图像到事件数据的领域自适应可以帮助缓解这个问题,但数据表示的差异需要额外的努力来解决。在这项工作中,我们首次协同来自图像、文本和事件数据领域的信息,并引入OpenESS,以实现开放世界中可扩展的ESS,并提高标注效率。我们通过将语义丰富的CLIP知识从图像-文本对转移到事件流来实现这一目标。为了追求更好的跨模态自适应,我们提出了一种帧到事件的对比蒸馏和一种文本到事件的语义一致性正则化。在流行的ESS基准上的实验结果表明,我们的方法优于现有方法。值得注意的是,我们在DDD17和DSEC-Semantic上实现了53.93%和43.31%的mIoU,而没有使用事件或帧标签。

🔬 方法详解

问题定义:事件语义分割(ESS)旨在为事件相机捕获的事件流进行像素级别的语义标注。现有方法受限于事件数据标注成本高昂,难以扩展到开放词汇场景。同时,直接将图像领域的知识迁移到事件领域,由于数据表示形式的差异,效果往往不佳。

核心思路:OpenESS的核心思路是利用预训练的CLIP模型中蕴含的丰富的图像-文本语义知识,通过跨模态知识迁移,实现对事件流的语义理解。通过结合图像、文本和事件数据的信息,弥补事件数据标注的不足,并解决模态差异带来的挑战。

技术框架:OpenESS包含以下主要模块:1) 帧到事件对比蒸馏:利用图像帧作为桥梁,将CLIP的视觉知识蒸馏到事件表示中。2) 文本到事件语义一致性正则化:利用CLIP的文本编码器,约束事件表示与对应文本描述之间的语义一致性。整体流程是,首先利用帧到事件对比蒸馏学习事件表示,然后通过文本到事件语义一致性正则化,进一步提升事件表示的语义信息。

关键创新:OpenESS的关键创新在于:1) 首次将CLIP模型应用于事件语义分割任务,实现了开放词汇的语义理解。2) 提出了帧到事件对比蒸馏和文本到事件语义一致性正则化,有效解决了跨模态知识迁移中的模态差异问题。

关键设计:帧到事件对比蒸馏采用InfoNCE损失,鼓励事件表示与对应图像帧的表示相似,而与其它帧的表示不同。文本到事件语义一致性正则化采用余弦相似度损失,鼓励事件表示与对应文本描述的CLIP文本嵌入相似。网络结构方面,事件编码器采用轻量级的卷积神经网络,以适应事件数据的稀疏性和高时间分辨率。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

OpenESS在DDD17和DSEC-Semantic数据集上取得了显著的性能提升,无需事件或帧标签的情况下,分别达到了53.93%和43.31%的mIoU。这表明OpenESS能够有效地利用图像-文本知识,实现开放词汇的事件语义分割,并显著降低了对标注数据的依赖。

🎯 应用场景

OpenESS在自动驾驶、机器人导航、监控等领域具有广泛的应用前景。它可以帮助智能系统理解动态环境,从而做出更安全、更可靠的决策。例如,在自动驾驶中,OpenESS可以用于识别道路上的行人、车辆和交通标志,从而提高驾驶安全性。在机器人导航中,它可以帮助机器人理解周围环境,从而实现自主导航。

📄 摘要(原文)

Event-based semantic segmentation (ESS) is a fundamental yet challenging task for event camera sensing. The difficulties in interpreting and annotating event data limit its scalability. While domain adaptation from images to event data can help to mitigate this issue, there exist data representational differences that require additional effort to resolve. In this work, for the first time, we synergize information from image, text, and event-data domains and introduce OpenESS to enable scalable ESS in an open-world, annotation-efficient manner. We achieve this goal by transferring the semantically rich CLIP knowledge from image-text pairs to event streams. To pursue better cross-modality adaptation, we propose a frame-to-event contrastive distillation and a text-to-event semantic consistency regularization. Experimental results on popular ESS benchmarks showed our approach outperforms existing methods. Notably, we achieve 53.93% and 43.31% mIoU on DDD17 and DSEC-Semantic without using either event or frame labels.