SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation
作者: Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan
分类: cs.CV, cs.AI
发布日期: 2026-03-10
备注: 8 pages, 5 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出SpaceSense-Bench大规模多模态数据集,用于航天器感知与姿态估计研究。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 航天器感知 姿态估计 多模态数据集 语义分割 深度估计
📋 核心要点
- 在轨服务等自主空间操作需要对目标航天器进行稳健的部件级语义理解和精确的相对导航,但收集大规模真实在轨数据不切实际。
- SpaceSense-Bench通过高保真空间模拟生成大规模多模态数据集,包含RGB图像、深度图、激光雷达点云以及部件级语义标签和6自由度姿态真值。
- 实验表明,现有方法在小尺度部件感知和零样本泛化方面存在瓶颈,而增加训练卫星数量可显著提升性能,验证了数据集的价值。
📝 摘要(中文)
本文提出了SpaceSense-Bench,一个大规模多模态航天器感知基准数据集,包含136个卫星模型,数据量约为70GB。每个帧提供时间同步的1024x1024 RGB图像、毫米级精度的深度图和256线激光雷达点云,以及像素级和点级的密集7类部件语义标签和精确的6自由度姿态真值。该数据集通过Unreal Engine 5中的高保真空间模拟和全自动流程生成,涵盖数据采集、多阶段质量控制和到主流格式的转换。论文对五个代表性任务(目标检测、2D语义分割、基于RGB-LiDAR融合的3D点云分割、单目深度估计和方向估计)进行了基准测试,发现当前方法在感知小尺度部件和零样本泛化到完全未见过的航天器方面仍然存在瓶颈,并且增加训练卫星的数量可以显著提高对新目标的效果,突出了大规模多样化数据集对空间感知研究的价值。数据集、代码和工具包已公开。
🔬 方法详解
问题定义:论文旨在解决航天器在轨服务和主动碎片移除等任务中,由于缺乏大规模、多样化的真实或高质量合成数据而导致的感知和姿态估计问题。现有合成数据集通常存在目标多样性有限、单模态感知以及ground truth标注不完整等痛点。
核心思路:论文的核心思路是利用高保真空间模拟环境(Unreal Engine 5)和全自动数据生成流程,创建大规模、多模态的航天器数据集,从而为航天器感知和姿态估计算法的训练和评估提供充足的数据支持。通过增加训练数据的多样性,提高算法的泛化能力。
技术框架:SpaceSense-Bench数据集的生成流程主要包括以下几个阶段:1) 航天器模型导入和场景设置;2) 基于Unreal Engine 5的空间环境模拟和多模态数据采集(RGB图像、深度图、激光雷达点云);3) 多阶段质量控制,包括数据清洗、噪声过滤等;4) 数据格式转换,将数据转换为主流的格式,方便研究人员使用。同时,数据集提供了像素级和点级的部件语义标签以及精确的6自由度姿态真值。
关键创新:该论文的关键创新在于构建了一个大规模、多模态、高质量的航天器数据集,并提供了完整的部件级语义标注和姿态真值。与现有数据集相比,SpaceSense-Bench具有更大的规模、更高的真实感和更全面的标注信息,能够更好地支持航天器感知和姿态估计算法的研究。此外,全自动的数据生成流程也大大降低了数据采集的成本和时间。
关键设计:在数据生成过程中,论文采用了随机化的场景设置和光照条件,以增加数据的多样性。同时,为了保证数据的质量,论文设计了多阶段的质量控制流程,包括数据清洗、噪声过滤等。在语义标注方面,论文将航天器部件划分为7个类别,并提供了像素级和点级的标注信息。在姿态估计方面,论文提供了精确的6自由度姿态真值,方便研究人员进行算法评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有方法在感知小尺度部件(如推进器和全向天线)以及零样本泛化到完全未见过的航天器方面仍然面临挑战。同时,实验还发现,增加训练卫星的数量可以显著提高对新目标的性能,这突显了大规模多样化数据集对于空间感知研究的重要性。
🎯 应用场景
该研究成果可广泛应用于在轨服务、主动碎片移除、空间态势感知等领域。高质量数据集能够促进相关算法的研发,提升航天器自主导航和操作能力,降低任务风险和成本,为未来空间探索和资源利用提供技术支撑。
📄 摘要(原文)
Autonomous space operations such as on-orbit servicing and active debris removal demand robust part-level semantic understanding and precise relative navigation of target spacecraft, yet collecting large-scale real data in orbit remains impractical due to cost and access constraints. Existing synthetic datasets, moreover, suffer from limited target diversity, single-modality sensing, and incomplete ground-truth annotations. We present \textbf{SpaceSense-Bench}, a large-scale multi-modal benchmark for spacecraft perception encompassing 136~satellite models with approximately 70~GB of data. Each frame provides time-synchronized 1024$\times$1024 RGB images, millimeter-precision depth maps, and 256-beam LiDAR point clouds, together with dense 7-class part-level semantic labels at both the pixel and point level as well as accurate 6-DoF pose ground truth. The dataset is generated through a high-fidelity space simulation built in Unreal Engine~5 and a fully automated pipeline covering data acquisition, multi-stage quality control, and conversion to mainstream formats. We benchmark five representative tasks (object detection, 2D semantic segmentation, RGB--LiDAR fusion-based 3D point cloud segmentation, monocular depth estimation, and orientation estimation) and identify two key findings: (i)~perceiving small-scale components (\emph{e.g.}, thrusters and omni-antennas) and generalizing to entirely unseen spacecraft in a zero-shot setting remain critical bottlenecks for current methods, and (ii)~scaling up the number of training satellites yields substantial performance gains on novel targets, underscoring the value of large-scale, diverse datasets for space perception research. The dataset, code, and toolkit are publicly available at https://github.com/wuaodi/SpaceSense-Bench.