TALON: Token-Aligned Lightweight Adapters for 6-DoF Spacecraft Pose Estimation
作者: Abid Ali, Arunkumar Rathinam, Djamila Aouada
分类: cs.CV
发布日期: 2026-05-29
备注: 13 pages paper with 3 figures in total
💡 一句话要点
提出TALON:用于6自由度航天器姿态估计的Token对齐轻量级适配器
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 航天器姿态估计 视觉Transformer 轻量级适配器 时空特征融合 零样本学习
📋 核心要点
- 现有单目6自由度航天器姿态估计方法忽略了图像序列中的时间信息,而时序方法通常需要完全微调或辅助光流网络,导致灾难性遗忘或计算成本增加。
- TALON通过在冻结的ViT Transformer的自注意力层前注入轻量级适配器,并结合patch-token对齐损失,实现时空特征融合和几何约束。
- 实验表明,TALON在SPADES和SwissCube数据集上显著优于现有技术,并在SPARK真实数据上实现了强大的零样本跨域性能。
📝 摘要(中文)
本文提出了一种名为TALON(Token-Aligned Lightweight adapters for Orbital Navigation)的时空3D适配器,用于解决单目6自由度航天器姿态估计中忽略图像序列时间信息的问题。TALON将轻量级适配器注入到冻结的ViT视觉Transformer的自注意力层之前,并结合patch-token对齐损失,通过原型条件KL散度目标将适配后的特征在几何上与关键点结构对齐。这种前注意力放置方式允许冻结的注意力机制处理时间上丰富的tokens,从而以每个块单个适配器实现比后注意力替代方案更强的性能。该框架仅向冻结的骨干网络添加不到5%的参数。在SPADES数据集上,TALON将姿态误差降低了50%,在SwissCube数据集上,ADD-0.1d精度超过了先前最佳方法21.8%。在SPARK真实数据上的零样本跨域评估中,姿态误差降低了4.7倍,并且消融实验表征了适配器深度在域内和跨域设置中的作用。
🔬 方法详解
问题定义:论文旨在解决单目视觉航天器6自由度姿态估计问题,现有方法要么忽略了视频序列中的时序信息,要么需要对整个骨干网络进行微调,导致计算成本过高或出现灾难性遗忘。因此,如何在利用时序信息的同时,保持计算效率和泛化能力是一个挑战。
核心思路:论文的核心思路是在预训练的ViT Transformer中插入轻量级的适配器模块,并设计一个patch-token对齐损失函数,将视觉特征与航天器的关键点结构对齐。通过这种方式,模型可以在利用时序信息的同时,避免对整个网络进行微调,从而提高计算效率和泛化能力。
技术框架:TALON框架主要包含以下几个模块:1) 冻结的ViT Transformer骨干网络;2) 注入在自注意力层之前的轻量级适配器模块;3) patch-token对齐损失函数。输入是航天器图像序列,首先通过ViT提取特征,然后通过适配器模块进行时序特征融合,最后通过对齐损失函数将特征与关键点对齐,输出是航天器的6自由度姿态估计。
关键创新:该论文的关键创新在于:1) 提出了一种新的适配器结构,将其放置在Transformer的自注意力层之前,使得模型能够更好地利用时序信息;2) 设计了一种新的patch-token对齐损失函数,将视觉特征与航天器的关键点结构对齐,从而提高了姿态估计的准确性;3) 整个框架只需要训练少量参数,避免了对整个骨干网络进行微调,从而提高了计算效率和泛化能力。
关键设计:适配器模块采用3D卷积结构,用于融合时序信息。Patch-token对齐损失函数使用原型条件KL散度,鼓励每个关键点在token field中产生空间精确的激活。适配器深度(层数)的选择通过消融实验确定,以平衡性能和计算成本。训练过程中,ViT骨干网络的参数被冻结,只训练适配器模块的参数。
🖼️ 关键图片
📊 实验亮点
TALON在SPADES数据集上将姿态误差降低了50%,在SwissCube数据集上ADD-0.1d精度提高了21.8%。在SPARK真实数据上的零样本跨域评估中,姿态误差降低了4.7倍。这些结果表明,TALON在航天器姿态估计任务上具有显著的优势。
🎯 应用场景
该研究成果可应用于航天器自主导航、空间态势感知、在轨服务等领域。通过提高航天器姿态估计的精度和鲁棒性,可以降低对地面站的依赖,提高航天器自主运行能力,并为未来的空间任务提供更可靠的技术支持。
📄 摘要(原文)
Monocular 6-DoF spacecraft pose estimation methods predominantly process individual frames, discarding the temporal information present in an image sequence acquired during spacecraft manoeuvres. Few temporal approaches require full backbone fine-tuning or auxiliary optical flow networks, risking catastrophic forgetting or increasing computational cost, respectively. We propose TALON (Token-Aligned Lightweight adapters for Orbital Navigation): spatiotemporal 3D adapters injected before the self-attention layers of a frozen ViT vision transformer, combined with a patch-token alignment loss that geometrically grounds the adapted features to keypoint structure through a prototype-conditioned KL-divergence objective. Pre-attention placement allows the frozen attention to reason over temporally enriched tokens, achieving stronger performance with a single adapter per block than post-attention alternatives. The alignment loss shapes the intermediate representations so that each keypoint induces a spatially precise activation in the token field, while the framework adds less than 5% parameters to the frozen backbone. On SPADES dataset, TALON reduces the pose error by 50% over the prior state-of-the-art, and on SwissCube dataset it surpasses the prior best by 21.8% in ADD-0.1d accuracy. Zero-shot cross-domain evaluation from sim-to-real on SPARK real data reduces pose error by 4.7x, and ablations characterise the role of adapter depth across in-domain and cross-domain settings.