Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization

📄 arXiv: 2507.19459v1 📥 PDF

作者: Pol Francesch Huc, Emily Bates, Simone D'Amico

分类: cs.CV, cs.LG, cs.RO

发布日期: 2025-07-25


💡 一句话要点

提出基于CNN的3DGS快速初始化方法,用于非合作航天器三维模型重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 非合作航天器 3D Gaussian Splatting 卷积神经网络 姿态估计

📋 核心要点

  1. 现有NeRF和3DGS方法依赖精确的训练姿态,且计算成本高昂,限制了其在航天领域的应用。
  2. 提出基于CNN的基元初始化方法,从单目图像预测粗糙3D模型和姿态,加速3DGS训练。
  3. 实验表明,即使在噪声姿态下,该流程也能学习高保真3D模型,显著降低训练成本。

📝 摘要(中文)

本文提出了一种通过单目图像快速学习非合作航天器精确三维模型的方法。针对NeRF和3D Gaussian Splatting (3DGS)等新型视角合成技术在航天应用中训练姿态需求高、计算成本高的局限性,本文贡献包括:(1) 基于卷积神经网络(CNN)的3DGS基元初始化器,仅使用单目图像;(2) 一种能够在噪声或隐式姿态估计下进行训练的流程;(3) 对初始化变体的分析,以降低精确三维模型的训练成本。CNN以单张图像为输入,输出一个由基元组装而成的粗糙三维模型以及目标相对于相机的姿态。该基元组装用于初始化3DGS,显著减少了训练迭代次数和所需输入图像的数量(至少一个数量级)。CNN组件具有多种变体,采用不同的姿态估计技术,以实现额外的灵活性。本文对这些变体进行了比较,评估了它们在噪声或隐式姿态估计下对下游3DGS训练的有效性。结果表明,即使在不完善的姿态监督下,该流程也能够学习高保真度的三维表示,为新型视角合成技术在航天应用中的使用打开了大门。

🔬 方法详解

问题定义:论文旨在解决从单目图像快速、高效地重建非合作航天器三维模型的问题。现有方法,如NeRF和3DGS,虽然能生成高质量的三维模型,但训练过程需要精确的相机姿态,且计算资源消耗巨大,难以满足航天应用中资源受限和姿态信息不准确的需求。

核心思路:论文的核心思路是利用卷积神经网络(CNN)从单张图像中预测一个粗糙的三维模型,并将其作为3DGS的初始化。通过提供一个良好的初始状态,可以显著减少3DGS的训练迭代次数和所需的图像数量,从而降低计算成本并提高训练效率。此外,该方法还考虑了姿态估计的不确定性,设计了不同的CNN变体来适应噪声或隐式姿态估计。

技术框架:整体流程包括两个主要阶段:(1) 基于CNN的基元初始化阶段:该阶段使用CNN从单张图像中预测航天器的三维模型,表示为一组基元的集合,并估计相机相对于航天器的姿态。(2) 3DGS优化阶段:该阶段使用CNN的输出作为3DGS的初始状态,并利用少量图像对3DGS进行优化,以获得高保真度的三维模型。该流程的关键在于CNN的初始化,它为3DGS提供了一个良好的起点,从而加速了训练过程。

关键创新:该论文的关键创新在于将CNN与3DGS相结合,利用CNN的快速预测能力为3DGS提供初始化。这种方法显著降低了3DGS的训练成本,并使其能够在噪声或隐式姿态估计下工作。与传统的3DGS方法相比,该方法不需要精确的相机姿态,并且训练速度更快。

关键设计:CNN采用不同的姿态估计技术,包括直接姿态回归和基于关键点的姿态估计。损失函数包括三维重建损失和姿态估计损失。三维重建损失衡量预测的三维模型与真实三维模型之间的差异,姿态估计损失衡量预测的相机姿态与真实相机姿态之间的差异。网络结构的选择和参数设置需要根据具体的航天器形状和图像特征进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著减少3DGS的训练迭代次数和所需的图像数量,至少降低一个数量级。即使在噪声姿态估计下,该流程也能够学习高保真度的三维表示。不同CNN变体的比较结果表明,基于关键点的姿态估计方法在噪声姿态下表现更好。

🎯 应用场景

该研究成果可应用于航天器自主导航、目标识别、姿态估计和碰撞避免等领域。通过快速重建非合作航天器的三维模型,可以提高航天器在轨操作的安全性、可靠性和自主性。此外,该方法还可以应用于其他需要快速三维重建的场景,例如机器人导航和增强现实。

📄 摘要(原文)

The advent of novel view synthesis techniques such as NeRF and 3D Gaussian Splatting (3DGS) has enabled learning precise 3D models only from posed monocular images. Although these methods are attractive, they hold two major limitations that prevent their use in space applications: they require poses during training, and have high computational cost at training and inference. To address these limitations, this work contributes: (1) a Convolutional Neural Network (CNN) based primitive initializer for 3DGS using monocular images; (2) a pipeline capable of training with noisy or implicit pose estimates; and (3) and analysis of initialization variants that reduce the training cost of precise 3D models. A CNN takes a single image as input and outputs a coarse 3D model represented as an assembly of primitives, along with the target's pose relative to the camera. This assembly of primitives is then used to initialize 3DGS, significantly reducing the number of training iterations and input images needed -- by at least an order of magnitude. For additional flexibility, the CNN component has multiple variants with different pose estimation techniques. This work performs a comparison between these variants, evaluating their effectiveness for downstream 3DGS training under noisy or implicit pose estimates. The results demonstrate that even with imperfect pose supervision, the pipeline is able to learn high-fidelity 3D representations, opening the door for the use of novel view synthesis in space applications.