EgoPoints: Advancing Point Tracking for Egocentric Videos
作者: Ahmad Darkhalil, Rhodri Guerrier, Adam W. Harley, Dima Damen
分类: cs.CV
发布日期: 2024-12-05
备注: Accepted at WACV 2025. Paper webpage: https://ahmaddarkhalil.github.io/EgoPoints/
💡 一句话要点
提出EgoPoints以解决自我中心视频中的点跟踪问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 自我中心视频 点跟踪 重新识别 评估基准 动态对象 机器学习 计算机视觉
📋 核心要点
- 现有的点跟踪方法在自我中心视频中面临出视点和重新识别的挑战,难以有效处理复杂场景。
- 论文提出EgoPoints基准,通过标注大量具有挑战性的轨迹,设计了新的评估指标来衡量跟踪性能。
- 实验结果表明,微调后的CoTracker在跟踪准确率和ReID序列的准确性上均有显著提升,验证了方法的有效性。
📝 摘要(中文)
我们介绍了EgoPoints,一个用于自我中心视频中点跟踪的基准。我们在自我中心序列中标注了4.7K个具有挑战性的轨迹。与流行的TAP-Vid-DAVIS评估基准相比,我们包含了9倍更多的出视点和59倍更多的需要重新识别(ReID)的点。为评估模型在这些挑战性点上的表现,我们引入了专门监测在视、出视和需要重新识别的点的跟踪性能的评估指标。我们还提出了一种创建半真实序列的流程,并生成了11K个这样的序列。通过在这些序列上微调点跟踪方法,并在我们的EgoPoints序列上进行评估,我们在所有指标上提升了CoTracker的跟踪准确率和ReID序列的准确性。
🔬 方法详解
问题定义:本论文旨在解决自我中心视频中点跟踪的困难,尤其是在处理出视点和重新识别时的挑战。现有方法在这些方面表现不佳,导致跟踪精度低下。
核心思路:我们提出EgoPoints基准,通过标注4.7K个轨迹,设计新的评估指标,专注于在视、出视和需要重新识别的点的跟踪性能,以此来提升点跟踪模型的效果。
技术框架:整体流程包括数据标注、评估指标设计和模型微调。首先,我们创建了包含动态Kubric对象和EPIC Fields场景点的半真实序列,然后在这些序列上微调点跟踪方法。
关键创新:最重要的创新在于引入了新的评估指标,特别关注出视点和需要重新识别的点,显著提升了模型在复杂场景下的跟踪能力。
关键设计:在模型微调过程中,我们采用了自动生成的真实标签,并对CoTracker和PIPs++进行了优化,具体提升了跟踪准确率和ReID序列的准确性。实验结果显示,CoTracker的跟踪准确率提升了2.7个百分点,ReID准确性提升了2.4个百分点。
🖼️ 关键图片
📊 实验亮点
实验结果显示,微调后的CoTracker在所有评估指标上均有提升,其中跟踪准确率$δ^ ext{}_{ ext{avg}}$提升了2.7个百分点,ReID序列的准确性提升了2.4个百分点。此外,PIPs++的$δ^ ext{}{ ext{avg}}$和ReID$δ{ ext{avg}}$分别提升了0.3和2.8,验证了我们方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括智能监控、虚拟现实和增强现实等自我中心视频分析场景。通过提升点跟踪的准确性,能够更好地支持人机交互、行为识别和环境理解等任务,具有重要的实际价值和未来影响。
📄 摘要(原文)
We introduce EgoPoints, a benchmark for point tracking in egocentric videos. We annotate 4.7K challenging tracks in egocentric sequences. Compared to the popular TAP-Vid-DAVIS evaluation benchmark, we include 9x more points that go out-of-view and 59x more points that require re-identification (ReID) after returning to view. To measure the performance of models on these challenging points, we introduce evaluation metrics that specifically monitor tracking performance on points in-view, out-of-view, and points that require re-identification. We then propose a pipeline to create semi-real sequences, with automatic ground truth. We generate 11K such sequences by combining dynamic Kubric objects with scene points from EPIC Fields. When fine-tuning point tracking methods on these sequences and evaluating on our annotated EgoPoints sequences, we improve CoTracker across all metrics, including the tracking accuracy $δ^\star_{\text{avg}}$ by 2.7 percentage points and accuracy on ReID sequences (ReID$δ_{\text{avg}}$) by 2.4 points. We also improve $δ^\star_{\text{avg}}$ and ReID$δ_{\text{avg}}$ of PIPs++ by 0.3 and 2.8 respectively.