EgoPoints: Advancing Point Tracking for Egocentric Videos

作者: Ahmad Darkhalil, Rhodri Guerrier, Adam W. Harley, Dima Damen

分类: cs.CV

发布日期: 2024-12-05

备注: Accepted at WACV 2025. Paper webpage: https://ahmaddarkhalil.github.io/EgoPoints/

💡 一句话要点

提出EgoPoints以解决自我中心视频中的点跟踪问题

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 自我中心视频 点跟踪 重新识别 评估基准 动态对象 机器学习 计算机视觉

📋 核心要点

现有的点跟踪方法在自我中心视频中面临出视点和重新识别的挑战，难以有效处理复杂场景。
论文提出EgoPoints基准，通过标注大量具有挑战性的轨迹，设计了新的评估指标来衡量跟踪性能。
实验结果表明，微调后的CoTracker在跟踪准确率和ReID序列的准确性上均有显著提升，验证了方法的有效性。

📝 摘要（中文）

我们介绍了EgoPoints，一个用于自我中心视频中点跟踪的基准。我们在自我中心序列中标注了4.7K个具有挑战性的轨迹。与流行的TAP-Vid-DAVIS评估基准相比，我们包含了9倍更多的出视点和59倍更多的需要重新识别（ReID）的点。为评估模型在这些挑战性点上的表现，我们引入了专门监测在视、出视和需要重新识别的点的跟踪性能的评估指标。我们还提出了一种创建半真实序列的流程，并生成了11K个这样的序列。通过在这些序列上微调点跟踪方法，并在我们的EgoPoints序列上进行评估，我们在所有指标上提升了CoTracker的跟踪准确率和ReID序列的准确性。

🔬 方法详解

问题定义：本论文旨在解决自我中心视频中点跟踪的困难，尤其是在处理出视点和重新识别时的挑战。现有方法在这些方面表现不佳，导致跟踪精度低下。

核心思路：我们提出EgoPoints基准，通过标注4.7K个轨迹，设计新的评估指标，专注于在视、出视和需要重新识别的点的跟踪性能，以此来提升点跟踪模型的效果。

技术框架：整体流程包括数据标注、评估指标设计和模型微调。首先，我们创建了包含动态Kubric对象和EPIC Fields场景点的半真实序列，然后在这些序列上微调点跟踪方法。

关键创新：最重要的创新在于引入了新的评估指标，特别关注出视点和需要重新识别的点，显著提升了模型在复杂场景下的跟踪能力。

关键设计：在模型微调过程中，我们采用了自动生成的真实标签，并对CoTracker和PIPs++进行了优化，具体提升了跟踪准确率和ReID序列的准确性。实验结果显示，CoTracker的跟踪准确率提升了2.7个百分点，ReID准确性提升了2.4个百分点。

🖼️ 关键图片

📊 实验亮点

实验结果显示，微调后的CoTracker在所有评估指标上均有提升，其中跟踪准确率$δ^ ext{}_{ ext{avg}}$提升了2.7个百分点，ReID序列的准确性提升了2.4个百分点。此外，PIPs++的$δ^ ext{}{ ext{avg}}$和ReID$δ{ ext{avg}}$分别提升了0.3和2.8，验证了我们方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能监控、虚拟现实和增强现实等自我中心视频分析场景。通过提升点跟踪的准确性，能够更好地支持人机交互、行为识别和环境理解等任务，具有重要的实际价值和未来影响。

📄 摘要（原文）

We introduce EgoPoints, a benchmark for point tracking in egocentric videos. We annotate 4.7K challenging tracks in egocentric sequences. Compared to the popular TAP-Vid-DAVIS evaluation benchmark, we include 9x more points that go out-of-view and 59x more points that require re-identification (ReID) after returning to view. To measure the performance of models on these challenging points, we introduce evaluation metrics that specifically monitor tracking performance on points in-view, out-of-view, and points that require re-identification. We then propose a pipeline to create semi-real sequences, with automatic ground truth. We generate 11K such sequences by combining dynamic Kubric objects with scene points from EPIC Fields. When fine-tuning point tracking methods on these sequences and evaluating on our annotated EgoPoints sequences, we improve CoTracker across all metrics, including the tracking accuracy $δ^\star_{\text{avg}}$ by 2.7 percentage points and accuracy on ReID sequences (ReID$δ_{\text{avg}}$) by 2.4 points. We also improve $δ^\star_{\text{avg}}$ and ReID$δ_{\text{avg}}$ of PIPs++ by 0.3 and 2.8 respectively.

EgoPoints: Advancing Point Tracking for Egocentric Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理