Event6D: Event-based Novel Object 6D Pose Tracking
作者: Jae-Young Kang, Hoonehee Cho, Taeyeop Lee, Minjun Kang, Bowen Wen, Youngho Kim, Kuk-Jin Yoon
分类: cs.CV
发布日期: 2026-03-30
备注: Accepted by CVPR2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
EventTrack6D:基于事件相机的新物体6D位姿跟踪框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事件相机 6D位姿跟踪 新物体 事件-深度融合 运动估计
📋 核心要点
- 传统RGB和深度相机在快速动态场景中容易出现运动模糊和像素位移过大等问题,难以进行准确的6D位姿跟踪。
- EventTrack6D通过重建事件相机数据中的光度和几何信息,并结合深度信息,实现对新物体的6D位姿跟踪,无需针对特定物体进行训练。
- EventTrack6D在快速运动下保持时间一致性,运行速度超过120 FPS,并在真实和模拟数据集上验证了其有效性。
📝 摘要(中文)
本文提出了一种基于事件相机的6D物体位姿跟踪框架EventTrack6D,该框架能够推广到未见过的物体,无需针对特定物体进行训练。EventTrack6D通过重建深度帧之间任意时间戳的强度和深度信息,从而实现对快速动态场景中物体的位姿跟踪。该方法以最近的深度测量为条件,利用双重重建从稀疏的事件流中恢复密集的图像和几何线索。EventTrack6D运行速度超过120 FPS,并在快速运动下保持时间一致性。为了支持训练和评估,本文还构建了一个全面的基准测试套件,包括大规模合成数据集以及真实和模拟事件数据集。EventTrack6D仅在合成数据上训练,即可有效地推广到真实场景,并在不同的物体和运动模式下保持准确的跟踪。该方法和数据集验证了事件相机在基于事件的新物体6D位姿跟踪方面的有效性。
🔬 方法详解
问题定义:现有基于RGB和深度相机的6D位姿跟踪方法在快速运动场景下表现不佳,容易受到运动模糊和像素位移的影响。此外,针对特定物体的训练方法难以推广到新物体上。因此,需要一种能够处理快速运动并推广到新物体的6D位姿跟踪方法。
核心思路:利用事件相机的高时间分辨率特性,通过重建事件流中的光度和几何信息,克服运动模糊问题。同时,采用基于深度信息的条件重建,将深度信息与事件信息融合,提高位姿估计的准确性。通过在合成数据上进行训练,提高模型对新物体的泛化能力。
技术框架:EventTrack6D框架主要包含事件-深度融合模块和位姿估计模块。事件-深度融合模块以最近的深度测量为条件,利用事件流重建任意时间戳的强度和深度信息。位姿估计模块利用重建的光度和几何信息,估计物体的6D位姿。整个框架在时间上保持一致性,能够处理快速运动场景。
关键创新:该方法的主要创新在于利用事件相机数据进行光度和几何信息的重建,并将其与深度信息融合,从而实现对新物体的6D位姿跟踪。此外,该方法无需针对特定物体进行训练,具有良好的泛化能力。
关键设计:该方法采用双重重建策略,分别重建强度和深度信息。在损失函数设计上,考虑了光度一致性和几何一致性,以提高重建的准确性。网络结构采用编码器-解码器结构,编码器用于提取事件流的特征,解码器用于重建光度和深度信息。
🖼️ 关键图片
📊 实验亮点
EventTrack6D在合成数据集上训练后,能够有效地推广到真实场景,并在不同的物体和运动模式下保持准确的跟踪。实验结果表明,EventTrack6D在速度和精度上均优于现有方法,运行速度超过120 FPS,并在真实数据集上取得了具有竞争力的结果。该方法验证了事件相机在基于事件的新物体6D位姿跟踪方面的有效性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。在机器人导航中,可以帮助机器人在快速运动的环境中准确跟踪目标物体。在自动驾驶中,可以提高车辆对周围环境的感知能力,从而提高驾驶安全性。在增强现实中,可以实现更逼真的虚拟物体与真实环境的交互。
📄 摘要(原文)
Event cameras provide microsecond latency, making them suitable for 6D object pose tracking in fast, dynamic scenes where conventional RGB and depth pipelines suffer from motion blur and large pixel displacements. We introduce EventTrack6D, an event-depth tracking framework that generalizes to novel objects without object-specific training by reconstructing both intensity and depth at arbitrary timestamps between depth frames. Conditioned on the most recent depth measurement, our dual reconstruction recovers dense photometric and geometric cues from sparse event streams. Our EventTrack6D operates at over 120 FPS and maintains temporal consistency under rapid motion. To support training and evaluation, we introduce a comprehensive benchmark suite: a large-scale synthetic dataset for training and two complementary evaluation sets, including real and simulated event datasets. Trained exclusively on synthetic data, EventTrack6D generalizes effectively to real-world scenarios without fine-tuning, maintaining accurate tracking across diverse objects and motion patterns. Our method and datasets validate the effectiveness of event cameras for event-based 6D pose tracking of novel objects. Code and datasets are publicly available at https://chohoonhee.github.io/Event6D.