TALON: Token-Aligned Lightweight Adapters for 6-DoF Spacecraft Pose Estimation

作者: Abid Ali, Arunkumar Rathinam, Djamila Aouada

分类: cs.CV

发布日期: 2026-05-29

备注: 13 pages paper with 3 figures in total

💡 一句话要点

提出TALON：用于6自由度航天器姿态估计的Token对齐轻量级适配器

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation)

关键词: 航天器姿态估计 视觉Transformer 轻量级适配器 时空特征融合 零样本学习

📋 核心要点

现有单目6自由度航天器姿态估计方法忽略了图像序列中的时间信息，而时序方法通常需要完全微调或辅助光流网络，导致灾难性遗忘或计算成本增加。
TALON通过在冻结的ViT Transformer的自注意力层前注入轻量级适配器，并结合patch-token对齐损失，实现时空特征融合和几何约束。
实验表明，TALON在SPADES和SwissCube数据集上显著优于现有技术，并在SPARK真实数据上实现了强大的零样本跨域性能。

📝 摘要（中文）

本文提出了一种名为TALON（Token-Aligned Lightweight adapters for Orbital Navigation）的时空3D适配器，用于解决单目6自由度航天器姿态估计中忽略图像序列时间信息的问题。TALON将轻量级适配器注入到冻结的ViT视觉Transformer的自注意力层之前，并结合patch-token对齐损失，通过原型条件KL散度目标将适配后的特征在几何上与关键点结构对齐。这种前注意力放置方式允许冻结的注意力机制处理时间上丰富的tokens，从而以每个块单个适配器实现比后注意力替代方案更强的性能。该框架仅向冻结的骨干网络添加不到5%的参数。在SPADES数据集上，TALON将姿态误差降低了50%，在SwissCube数据集上，ADD-0.1d精度超过了先前最佳方法21.8%。在SPARK真实数据上的零样本跨域评估中，姿态误差降低了4.7倍，并且消融实验表征了适配器深度在域内和跨域设置中的作用。

🔬 方法详解

问题定义：论文旨在解决单目视觉航天器6自由度姿态估计问题，现有方法要么忽略了视频序列中的时序信息，要么需要对整个骨干网络进行微调，导致计算成本过高或出现灾难性遗忘。因此，如何在利用时序信息的同时，保持计算效率和泛化能力是一个挑战。

核心思路：论文的核心思路是在预训练的ViT Transformer中插入轻量级的适配器模块，并设计一个patch-token对齐损失函数，将视觉特征与航天器的关键点结构对齐。通过这种方式，模型可以在利用时序信息的同时，避免对整个网络进行微调，从而提高计算效率和泛化能力。

技术框架：TALON框架主要包含以下几个模块：1) 冻结的ViT Transformer骨干网络；2) 注入在自注意力层之前的轻量级适配器模块；3) patch-token对齐损失函数。输入是航天器图像序列，首先通过ViT提取特征，然后通过适配器模块进行时序特征融合，最后通过对齐损失函数将特征与关键点对齐，输出是航天器的6自由度姿态估计。

关键创新：该论文的关键创新在于：1) 提出了一种新的适配器结构，将其放置在Transformer的自注意力层之前，使得模型能够更好地利用时序信息；2) 设计了一种新的patch-token对齐损失函数，将视觉特征与航天器的关键点结构对齐，从而提高了姿态估计的准确性；3) 整个框架只需要训练少量参数，避免了对整个骨干网络进行微调，从而提高了计算效率和泛化能力。

关键设计：适配器模块采用3D卷积结构，用于融合时序信息。Patch-token对齐损失函数使用原型条件KL散度，鼓励每个关键点在token field中产生空间精确的激活。适配器深度（层数）的选择通过消融实验确定，以平衡性能和计算成本。训练过程中，ViT骨干网络的参数被冻结，只训练适配器模块的参数。

🖼️ 关键图片

📊 实验亮点

TALON在SPADES数据集上将姿态误差降低了50%，在SwissCube数据集上ADD-0.1d精度提高了21.8%。在SPARK真实数据上的零样本跨域评估中，姿态误差降低了4.7倍。这些结果表明，TALON在航天器姿态估计任务上具有显著的优势。

🎯 应用场景

该研究成果可应用于航天器自主导航、空间态势感知、在轨服务等领域。通过提高航天器姿态估计的精度和鲁棒性，可以降低对地面站的依赖，提高航天器自主运行能力，并为未来的空间任务提供更可靠的技术支持。

📄 摘要（原文）

Monocular 6-DoF spacecraft pose estimation methods predominantly process individual frames, discarding the temporal information present in an image sequence acquired during spacecraft manoeuvres. Few temporal approaches require full backbone fine-tuning or auxiliary optical flow networks, risking catastrophic forgetting or increasing computational cost, respectively. We propose TALON (Token-Aligned Lightweight adapters for Orbital Navigation): spatiotemporal 3D adapters injected before the self-attention layers of a frozen ViT vision transformer, combined with a patch-token alignment loss that geometrically grounds the adapted features to keypoint structure through a prototype-conditioned KL-divergence objective. Pre-attention placement allows the frozen attention to reason over temporally enriched tokens, achieving stronger performance with a single adapter per block than post-attention alternatives. The alignment loss shapes the intermediate representations so that each keypoint induces a spatially precise activation in the token field, while the framework adds less than 5% parameters to the frozen backbone. On SPADES dataset, TALON reduces the pose error by 50% over the prior state-of-the-art, and on SwissCube dataset it surpasses the prior best by 21.8% in ADD-0.1d accuracy. Zero-shot cross-domain evaluation from sim-to-real on SPARK real data reduces pose error by 4.7x, and ablations characterise the role of adapter depth across in-domain and cross-domain settings.

TALON: Token-Aligned Lightweight Adapters for 6-DoF Spacecraft Pose Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理