LA-Pose: Latent Action Pretraining Meets Pose Estimation
作者: Zhengqing Wang, Saurabh Nair, Prajwal Chidananda, Pujith Kachana, Samuel Li, Matthew Brown, Yasutaka Furukawa
分类: cs.CV
发布日期: 2026-04-30
备注: Project page: https://la-pose.github.io/
💡 一句话要点
LA-Pose:利用潜在动作预训练提升相机位姿估计精度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 相机位姿估计 自监督学习 逆动力学模型 潜在动作表示 预训练 微调 自动驾驶
📋 核心要点
- 现有相机位姿估计方法依赖大量3D标注数据进行全监督训练,成本高昂且泛化性受限。
- LA-Pose利用逆动力学预训练学习潜在动作表示,并将其作为相机位姿估计器的输入,实现高效位姿预测。
- 在Waymo和PandaSet数据集上,LA-Pose在显著减少标注数据的情况下,位姿精度超越了现有前馈方法。
📝 摘要(中文)
本文重新审视了相机位姿估计问题,并将其置于自监督预训练的视角下,重点关注逆动力学预训练,将其作为一种可扩展的替代方案,以取代当前使用3D标注进行全监督训练的趋势。具体而言,我们采用逆向和正向动力学模型来学习潜在的动作表示,类似于大规模驾驶视频中的Genie。我们的想法简单而有效。现有方法通常以其原始能力使用潜在动作,即作为世界模型的动作条件或作为策略网络中机器人动作参数的代理。我们的方法,称为LA-Pose,将潜在动作特征重新用作相机位姿估计器的输入,并在有限的高质量3D标注数据集上进行微调。这种公式能够在保持前馈效率的同时实现准确且可泛化的位姿预测。在驾驶基准上的大量实验表明,LA-Pose实现了与最先进方法相比具有竞争力甚至更优越的性能,同时使用的标注数据量减少了几个数量级。具体而言,在Waymo和PandaSet基准上,LA-Pose实现了比最近的前馈方法高出10%以上的位姿精度。据我们所知,这项工作是第一个证明逆动力学自监督学习在位姿估计方面的强大能力。
🔬 方法详解
问题定义:论文旨在解决相机位姿估计中对大量3D标注数据的依赖问题。现有方法通常采用全监督学习,需要昂贵且耗时的3D标注,并且在面对新的场景时泛化能力较弱。
核心思路:论文的核心思路是利用自监督学习中的逆动力学模型,从未标注的视频数据中学习潜在的动作表示。这些潜在动作表示能够捕捉场景中的运动信息,并作为相机位姿估计的有效特征。通过预训练和微调的策略,可以在少量标注数据上实现高性能的位姿估计。
技术框架:LA-Pose包含两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用逆动力学模型和正向动力学模型从未标注的视频数据中学习潜在动作表示。逆动力学模型根据当前状态和下一个状态预测动作,正向动力学模型根据当前状态和动作预测下一个状态。在微调阶段,将学习到的潜在动作表示作为相机位姿估计器的输入,并在少量标注数据上进行微调。相机位姿估计器是一个前馈神经网络,用于预测相机的位姿。
关键创新:该论文的关键创新在于将逆动力学自监督学习应用于相机位姿估计。以往的逆动力学模型主要用于机器人控制或世界建模,而LA-Pose创造性地将其应用于位姿估计,并证明了其有效性。此外,LA-Pose通过预训练和微调的策略,显著减少了对标注数据的需求。
关键设计:LA-Pose的关键设计包括:1) 使用Transformer网络作为逆动力学模型和正向动力学模型,以捕捉视频中的时序信息。2) 使用对比学习损失函数来训练逆动力学模型,鼓励学习到的潜在动作表示能够区分不同的动作。3) 使用均方误差损失函数来训练相机位姿估计器,最小化预测位姿与真实位姿之间的差异。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
LA-Pose在Waymo和PandaSet驾驶数据集上取得了显著的性能提升。与现有的前馈方法相比,LA-Pose在位姿精度上提高了10%以上,同时使用的标注数据量减少了几个数量级。这些结果表明,逆动力学自监督学习是位姿估计的一种有效方法。
🎯 应用场景
LA-Pose在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。通过减少对大量标注数据的依赖,LA-Pose可以降低部署成本,并提高在不同环境下的泛化能力。该研究为利用自监督学习解决计算机视觉问题提供了一种新的思路。
📄 摘要(原文)
This paper revisits camera pose estimation through the lens of self-supervised pretraining, focusing on inverse-dynamics pretraining as a scalable alternative to the current trend of fully supervised training with 3D annotations. Concretely, we employ inverse- and forward-dynamics models to learn latent action representations, similar to Genie from large-scale driving videos. Our idea is simple yet effective. Existing methods use latent actions in their original capacity, that is, as action conditioning of world-models or as proxies of robot action parameters in policy networks. Our method, dubbed LA-Pose, repurposes the latent action features as inputs to a camera pose estimator, finetuned on a limited set of high-quality 3D annotations. This formulation enables accurate and generalizable pose prediction while maintaining feed-forward efficiency. Extensive experiments on driving benchmarks show that LA-Pose achieves competitive and even superior performance to state-of-the-art methods while using orders of magnitude less labeled data. Concretely, on the Waymo and PandaSet benchmarks, LA-Pose achieves over 10% higher pose accuracy than recent feed-forward methods. To our knowledge, this work is the first to demonstrate the power of inverse-dynamics self-supervised learning for pose estimation.