TETO: Tracking Events with Teacher Observation for Motion Estimation and Frame Interpolation
作者: Jini Yang, Eunbeen Hong, Soowon Son, Hyunkoo Lee, Sunghwan Hong, Sunok Kim, Seungryong Kim
分类: cs.CV
发布日期: 2026-03-24
💡 一句话要点
TETO:利用教师观测追踪事件,用于运动估计和帧插值
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 运动估计 知识蒸馏 帧插值 教师-学生框架
📋 核心要点
- 现有事件相机运动估计方法依赖大量合成数据,存在模拟到真实世界的差距,限制了实际应用。
- TETO利用教师-学生框架,通过预训练RGB跟踪器的知识蒸馏,仅使用少量真实数据学习事件运动估计。
- 实验表明,TETO在点跟踪、光流估计和帧插值任务上均取得了显著的性能提升,优于现有方法。
📝 摘要(中文)
事件相机以微秒级分辨率捕捉像素级的亮度变化,提供了RGB帧之间丢失的连续运动信息。然而,现有的基于事件的运动估计器依赖于大规模合成数据,这些数据通常存在显著的模拟到真实世界的差距。我们提出了TETO(Tracking Events with Teacher Observation),一个教师-学生框架,仅通过来自预训练RGB跟踪器的知识蒸馏,从约25分钟的未标注真实世界记录中学习事件运动估计。我们的运动感知数据管理和查询采样策略通过将物体运动与主要自运动分离,最大限度地从有限数据中学习。由此产生的估计器联合预测点轨迹和密集光流,我们将其用作显式运动先验,以调节预训练的视频扩散Transformer进行帧插值。我们使用数量级更少的数据,在EVIMO2上实现了最先进的点跟踪,在DSEC上实现了最先进的光流,并证明了准确的运动估计直接转化为BS-ERGB和HQ-EVFI上卓越的帧插值质量。
🔬 方法详解
问题定义:现有基于事件相机的运动估计方法依赖于大规模的合成数据集进行训练,然而合成数据与真实数据之间存在较大的差异(sim-to-real gap),导致模型在真实场景下的泛化能力较差。此外,如何有效地利用事件相机提供的高时间分辨率运动信息也是一个挑战。
核心思路:TETO的核心思路是利用知识蒸馏,将预训练的RGB跟踪器的知识迁移到事件相机的运动估计模型中。通过这种方式,模型可以在少量真实数据上学习到有效的运动估计能力,从而避免了对大规模合成数据的依赖。同时,论文还设计了运动感知的数据管理和查询采样策略,以最大限度地利用有限的数据。
技术框架:TETO采用教师-学生框架。教师模型是一个预训练的RGB跟踪器,用于生成伪标签。学生模型是基于事件相机的运动估计器,通过学习教师模型的输出来进行训练。整体流程包括:1) 使用RGB跟踪器在真实事件数据上生成伪标签;2) 使用运动感知的数据管理和查询采样策略选择有用的数据样本;3) 训练学生模型,使其能够预测点轨迹和密集光流;4) 将预测的光流作为运动先验,用于调节预训练的视频扩散Transformer进行帧插值。
关键创新:TETO的关键创新在于:1) 提出了一个基于知识蒸馏的事件相机运动估计框架,避免了对大规模合成数据的依赖;2) 设计了运动感知的数据管理和查询采样策略,以最大限度地利用有限的数据;3) 将运动估计结果作为运动先验,用于提升帧插值的性能。
关键设计:在数据管理方面,论文设计了一种运动感知的采样策略,旨在平衡自运动和物体运动的影响,从而选择更具信息量的样本。在损失函数方面,论文使用了多种损失函数,包括点跟踪损失、光流损失和一致性损失,以确保模型能够准确地预测运动信息。具体网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
TETO在EVIMO2点跟踪和DSEC光流估计任务上取得了SOTA结果,且训练数据量远小于现有方法。例如,在EVIMO2数据集上,TETO的点跟踪性能优于现有方法,同时训练数据量减少了几个数量级。此外,TETO在BS-ERGB和HQ-EVFI数据集上的帧插值质量也显著优于现有方法,证明了准确运动估计对帧插值的积极影响。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、视频监控等领域。通过利用事件相机提供的高时间分辨率运动信息,可以提高运动估计的准确性和鲁棒性,从而提升相关应用系统的性能。未来,该方法有望扩展到其他基于事件相机的视觉任务中,例如三维重建、SLAM等。
📄 摘要(原文)
Event cameras capture per-pixel brightness changes with microsecond resolution, offering continuous motion information lost between RGB frames. However, existing event-based motion estimators depend on large-scale synthetic data that often suffers from a significant sim-to-real gap. We propose TETO (Tracking Events with Teacher Observation), a teacher-student framework that learns event motion estimation from only $\sim$25 minutes of unannotated real-world recordings through knowledge distillation from a pretrained RGB tracker. Our motion-aware data curation and query sampling strategy maximizes learning from limited data by disentangling object motion from dominant ego-motion. The resulting estimator jointly predicts point trajectories and dense optical flow, which we leverage as explicit motion priors to condition a pretrained video diffusion transformer for frame interpolation. We achieve state-of-the-art point tracking on EVIMO2 and optical flow on DSEC using orders of magnitude less training data, and demonstrate that accurate motion estimation translates directly to superior frame interpolation quality on BS-ERGB and HQ-EVFI.