Event6D: Event-based Novel Object 6D Pose Tracking

📄 arXiv: 2603.28045 📥 PDF

作者: Jae-Young Kang, Hoonhee Cho, Taeyeop Lee, Minjun Kang, Bowen Wen, Youngho Kim, Kuk-Jin Yoon

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

EventTrack6D:提出一种基于事件相机的通用物体6D位姿跟踪框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 6D位姿跟踪 新型物体 事件深度重建 快速运动

📋 核心要点

  1. 传统RGB和深度相机在快速动态场景中容易出现运动模糊和大像素位移,难以进行准确的6D位姿跟踪。
  2. EventTrack6D通过事件相机重建任意时间戳的强度和深度信息,从而实现对未见物体的6D位姿跟踪,无需特定物体训练。
  3. EventTrack6D在超过120 FPS的速度下运行,并在快速运动下保持时间一致性,且在真实场景中表现出良好的泛化能力。

📝 摘要(中文)

本文提出了一种基于事件相机的新型物体6D位姿跟踪框架EventTrack6D,该框架通过重建深度帧之间任意时间戳的强度和深度信息,从而泛化到未见过的物体,无需针对特定物体进行训练。EventTrack6D以最新的深度测量为条件,从稀疏的事件流中恢复密集的图像和几何线索。该方法运行速度超过120 FPS,并在快速运动下保持时间一致性。为了支持训练和评估,本文构建了一个综合的基准测试套件,包括大规模合成数据集以及真实和模拟事件数据集。EventTrack6D仅在合成数据上训练,即可有效地泛化到真实场景,并在不同的物体和运动模式下保持准确的跟踪。实验结果验证了事件相机在基于事件的新型物体6D位姿跟踪方面的有效性。代码和数据集已公开。

🔬 方法详解

问题定义:现有基于RGB或深度相机的6D位姿跟踪方法在快速运动场景下表现不佳,容易受到运动模糊的影响。此外,针对特定物体的训练使得模型难以泛化到未见过的物体。因此,需要一种能够处理快速运动,并且能够泛化到新型物体的6D位姿跟踪方法。

核心思路:利用事件相机的高时间分辨率特性,在深度帧之间重建强度和深度信息,从而克服运动模糊问题。通过在合成数据上进行训练,提高模型对真实场景的泛化能力。核心思想是利用事件相机提供的高速信息来插值深度信息,从而实现快速且通用的6D位姿跟踪。

技术框架:EventTrack6D框架主要包含事件-深度重建模块和6D位姿跟踪模块。事件-深度重建模块以最新的深度测量为条件,利用事件流重建任意时间戳的强度和深度信息。6D位姿跟踪模块利用重建的强度和深度信息,估计物体的6D位姿。整体流程是:输入事件流和深度图,经过事件-深度重建,得到密集的图像和几何信息,最后进行6D位姿估计。

关键创新:该方法的主要创新在于利用事件相机进行深度帧之间的强度和深度重建,从而实现对快速运动物体的准确跟踪。此外,该方法通过在合成数据上进行训练,实现了对新型物体的泛化能力,无需针对特定物体进行训练。与传统方法相比,EventTrack6D能够更好地处理快速运动,并且具有更强的泛化能力。

关键设计:EventTrack6D使用了一种双重重建策略,同时重建强度和深度信息。损失函数包括光度损失和几何损失,用于约束重建的质量。网络结构采用了U-Net结构,用于实现事件到强度和深度的映射。具体参数设置未知,论文中可能未详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EventTrack6D在合成数据集上训练后,能够有效地泛化到真实场景,并在不同的物体和运动模式下保持准确的跟踪。该方法在快速运动下运行速度超过120 FPS,并在时间一致性方面表现出色。实验结果表明,EventTrack6D在基于事件的新型物体6D位姿跟踪方面具有显著优势。

🎯 应用场景

该研究成果可应用于机器人抓取、自动驾驶、增强现实等领域。在机器人抓取中,可以利用该方法实现对快速移动物体的精确抓取。在自动驾驶中,可以用于跟踪车辆和行人等动态目标。在增强现实中,可以实现更逼真的物体交互。

📄 摘要(原文)

Event cameras provide microsecond latency, making them suitable for 6D object pose tracking in fast, dynamic scenes where conventional RGB and depth pipelines suffer from motion blur and large pixel displacements. We introduce EventTrack6D, an event-depth tracking framework that generalizes to novel objects without object-specific training by reconstructing both intensity and depth at arbitrary timestamps between depth frames. Conditioned on the most recent depth measurement, our dual reconstruction recovers dense photometric and geometric cues from sparse event streams. Our EventTrack6D operates at over 120 FPS and maintains temporal consistency under rapid motion. To support training and evaluation, we introduce a comprehensive benchmark suite: a large-scale synthetic dataset for training and two complementary evaluation sets, including real and simulated event datasets. Trained exclusively on synthetic data, EventTrack6D generalizes effectively to real-world scenarios without fine-tuning, maintaining accurate tracking across diverse objects and motion patterns. Our method and datasets validate the effectiveness of event cameras for event-based 6D pose tracking of novel objects. Code and datasets are publicly available atthis https URL.