Adaptive Geodesic Conformal Prediction for Egocentric Camera Pose Estimation
作者: Aishani Pathak, Hasti Seifi
分类: cs.CV
发布日期: 2026-04-30
💡 一句话要点
提出DINOv2-Bridge自适应共形预测,提升以自我为中心的相机姿态估计不确定性覆盖率。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 相机姿态估计 共形预测 不确定性估计 自适应学习 增强现实
📋 核心要点
- 现有共形预测方法在以自我为中心的相机姿态估计中,对困难帧的覆盖率不足,导致不确定性估计不准确。
- 提出DINOv2-Bridge自适应共形预测,利用两阶段难度估计器,动态调整共形预测的阈值,提升困难帧的覆盖率。
- 实验表明,该方法在保持总体覆盖率的同时,显著提高了困难帧的覆盖率,实现了更好的跨参与者泛化能力。
📝 摘要(中文)
增强现实(AR)和辅助设备的以自我为中心的姿态估计不仅需要准确的预测,还需要有保证的不确定性区域。共形预测(CP)无需重新训练即可提供此类保证,但我们发现,标准的CP使用单一固定阈值,虽然实现了标称的90%总体覆盖率,但在最难的25%帧(Q4)中,覆盖率仅为~60%。在EPIC-Fields数据集上,跨12名参与者、3个预测器和3个时间范围(108次评估)中,这种~30个百分点的条件覆盖率差距是一致存在的。我们进一步表明,与欧几里得评分相比,大地测量SE(3)非一致性评分能识别出物理上更难的帧,大地测量Q4帧的重叠度仅为15-26%,真实相机位移高出2-3倍。为了缩小覆盖率差距,我们提出了DINOv2-Bridge自适应CP:一个在单个源参与者上训练的两阶段难度估计器,无需测试时的任何图像即可进行跨参与者迁移,在保持90%目标总体覆盖率的同时,将Q4覆盖率从~0.75提高到~0.93。
🔬 方法详解
问题定义:论文旨在解决以自我为中心的相机姿态估计中,标准共形预测方法在困难帧上覆盖率不足的问题。现有方法使用单一固定阈值,无法适应不同难度的帧,导致困难帧的不确定性估计不准确,影响AR和辅助设备的应用效果。
核心思路:论文的核心思路是引入自适应共形预测,根据帧的难度动态调整共形预测的阈值。通过训练一个难度估计器,预测每一帧的难度,并根据难度调整共形预测的置信区间,从而提高困难帧的覆盖率。
技术框架:DINOv2-Bridge自适应共形预测包含两个主要阶段:1) 难度估计器训练:使用DINOv2特征提取器和一个桥接网络,在单个源参与者的数据上训练一个难度估计器。该估计器预测每一帧的难度得分。2) 自适应共形预测:使用训练好的难度估计器,预测每一帧的难度得分,并根据难度得分调整共形预测的阈值,生成自适应的置信区间。
关键创新:论文的关键创新在于提出了一个两阶段的难度估计器,该估计器可以跨参与者迁移,无需在测试时使用任何图像。此外,论文还提出了使用大地测量SE(3)非一致性评分来识别物理上更难的帧,从而更好地指导难度估计器的训练。
关键设计:难度估计器使用DINOv2特征提取器提取图像特征,然后使用一个桥接网络将特征映射到难度得分。桥接网络可以使用不同的结构,例如多层感知机或卷积神经网络。损失函数可以使用均方误差或交叉熵损失,具体取决于难度得分的表示形式。共形预测的阈值可以根据难度得分进行线性或非线性调整。
📊 实验亮点
实验结果表明,DINOv2-Bridge自适应共形预测在EPIC-Fields数据集上,将最难的25%帧(Q4)的覆盖率从~0.75提高到~0.93,同时保持了90%的总体覆盖率。该方法在跨参与者泛化方面表现出色,无需在测试时使用任何图像即可实现良好的性能。
🎯 应用场景
该研究成果可应用于增强现实(AR)、机器人导航、辅助设备等领域。通过提供更准确和可靠的相机姿态估计,可以提升AR应用的沉浸感和交互性,改善机器人导航的精度和鲁棒性,增强辅助设备对环境的感知能力,从而更好地服务于用户。
📄 摘要(原文)
Egocentric pose estimation for Augmented Reality (AR) and assistive devices requires not just accurate predictions but guaranteed uncertainty regions. Conformal prediction (CP) provides such guarantees without retraining, but we show that standard CP with a single fixed threshold achieves nominal 90% overall coverage while covering only ~60% of the hardest 25% of frames (Q4) -- a ~30 percentage-point conditional coverage gap consistent across 12 participants, 3 predictors, and 3 horizons (108 evaluations) on EPIC-Fields. We further show that a geodesic SE(3) nonconformity score identifies physically harder frames than Euclidean scoring, with only 15-26% Q4 overlap and 2-3x higher ground-truth camera displacement for geodesic Q4 frames. To close the coverage gap, we propose DINOv2-Bridge adaptive CP: a two-stage difficulty estimator trained on a single source participant that transfers cross-participant without any images at test time, improving Q4 coverage from ~0.75 to ~0.93 while maintaining overall coverage at the 90% target.