Deep Learning-based Event Data Coding: A Joint Spatiotemporal and Polarity Solution

作者: Abdelrahman Seleem, André F. R. Guarda, Nuno M. M. Rodrigues, Fernando Pereira

分类: cs.CV, eess.IV

发布日期: 2025-02-05

💡 一句话要点

提出基于深度学习的联合时空极性事件数据编码DL-JEC，实现高效压缩。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 事件相机 事件数据编码 深度学习 点云 有损压缩

📋 核心要点

现有事件数据编码方案主要采用无损压缩，限制了压缩率的提升，且忽略了有损压缩在特定任务中的可行性。
DL-JEC采用单点云表示，通过深度学习方法联合编码事件数据的时空和极性信息，实现更高的压缩效率。
实验表明，DL-JEC在压缩性能上优于现有方案，并且在事件分类任务中，有损压缩并未显著降低性能。

📝 摘要（中文）

神经形态视觉传感器（事件相机）因其高速、高动态范围和低延迟的数据采集能力而备受关注。与传统相机不同，事件相机生成包含时空和极性信息的海量像素级事件，对编码方案提出了高效率要求。现有方案侧重于事件数据的无损编码，假定目标应用（如计算机视觉任务）不能容忍任何失真。一种有前景的编码方法是将事件数据视为点云，并使用点云编码方案，通常采用双点云表示（每个极性一个）。本文提出一种新的基于深度学习的联合事件数据编码（DL-JEC）方案，采用单点云表示，从而利用时空和极性事件信息之间的相关性。与现有技术相比，DL-JEC可实现显著的压缩性能提升。研究表明，在不影响目标计算机视觉任务（特别是事件分类）性能的前提下，可以使用有损事件数据编码及其降低的码率。此外，针对目标任务的新型自适应体素二值化策略进一步提升了DL-JEC的性能。

🔬 方法详解

问题定义：事件相机产生的数据量巨大，需要高效的编码方案。现有方案主要集中于无损编码，虽然保证了数据完整性，但压缩率受限。对于某些计算机视觉任务，允许一定程度的失真，因此有损编码具有潜力。现有基于点云的编码方法通常采用双点云表示，忽略了事件极性与时空信息的相关性。

核心思路：DL-JEC的核心思路是利用深度学习方法，将事件数据的时空信息和极性信息联合编码到一个单点云中。通过学习事件数据中的潜在结构和相关性，实现更高效的压缩。同时，通过控制失真程度，保证下游计算机视觉任务的性能。

技术框架：DL-JEC的整体框架包括以下几个主要模块：1) 事件数据预处理：将事件数据转换为单点云表示。2) 深度学习编码器：使用深度神经网络对点云进行编码，提取特征并进行压缩。3) 深度学习解码器：使用深度神经网络对压缩后的特征进行解码，重建点云。4) 自适应体素二值化：根据目标任务，对重建的点云进行体素二值化，以优化性能。

关键创新：DL-JEC的关键创新在于：1) 采用单点云表示，联合编码时空和极性信息，提高了压缩效率。2) 使用深度学习方法，自动学习事件数据中的复杂相关性。3) 提出自适应体素二值化策略，针对特定任务优化性能。与现有方法相比，DL-JEC能够实现更高的压缩率，同时保持良好的计算机视觉任务性能。

关键设计：DL-JEC的关键设计包括：1) 编码器和解码器的网络结构：可以使用各种点云处理网络，如PointNet、DGCNN等。2) 损失函数：可以使用重建误差、分类损失等，以优化编码和解码过程。3) 自适应体素二值化策略：根据目标任务，调整体素大小和二值化阈值。

📊 实验亮点

DL-JEC在事件数据编码方面取得了显著的性能提升，与现有技术相比，实现了更高的压缩率。实验结果表明，在事件分类任务中，DL-JEC在保证分类精度的前提下，能够显著降低数据量，证明了有损事件数据编码的可行性。

🎯 应用场景

DL-JEC可应用于各种需要高效事件数据压缩的场景，例如自动驾驶、机器人导航、高速运动捕捉等。通过降低数据存储和传输成本，DL-JEC可以促进事件相机在资源受限设备上的应用，并加速相关技术的发展。

📄 摘要（原文）

Neuromorphic vision sensors, commonly referred to as event cameras, have recently gained relevance for applications requiring high-speed, high dynamic range and low-latency data acquisition. Unlike traditional frame-based cameras that capture 2D images, event cameras generate a massive number of pixel-level events, composed by spatiotemporal and polarity information, with very high temporal resolution, thus demanding highly efficient coding solutions. Existing solutions focus on lossless coding of event data, assuming that no distortion is acceptable for the target use cases, mostly including computer vision tasks. One promising coding approach exploits the similarity between event data and point clouds, thus allowing to use current point cloud coding solutions to code event data, typically adopting a two-point clouds representation, one for each event polarity. This paper proposes a novel lossy Deep Learning-based Joint Event data Coding (DL-JEC) solution adopting a single-point cloud representation, thus enabling to exploit the correlation between the spatiotemporal and polarity event information. DL-JEC can achieve significant compression performance gains when compared with relevant conventional and DL-based state-of-the-art event data coding solutions. Moreover, it is shown that it is possible to use lossy event data coding with its reduced rate regarding lossless coding without compromising the target computer vision task performance, notably for event classification. The use of novel adaptive voxel binarization strategies, adapted to the target task, further enables DL-JEC to reach a superior performance.

Deep Learning-based Event Data Coding: A Joint Spatiotemporal and Polarity Solution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理