MOMO: Mars Orbital Model Foundation Model for Mars Orbital Applications

📄 arXiv: 2604.02719 📥 PDF

作者: Mirali Purohit, Bimal Gajera, Irish Mehta, Bhanu Tokas, Jacob Adler, Steven Lu, Scott Dickenshied, Serina Diniega, Brian Bue, Umaa Rebbapragada, Hannah Kerner

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-04-06


💡 一句话要点

MOMO:用于火星轨道应用的多传感器融合火星轨道模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 火星遥感 基础模型 模型融合 多传感器数据 等验证损失 行星科学 深度学习

📋 核心要点

  1. 现有方法难以有效融合多分辨率火星遥感数据,阻碍了火星地表特征的全面分析。
  2. MOMO通过等验证损失策略对齐不同传感器的模型检查点,再利用模型融合技术构建统一表征。
  3. 实验表明,MOMO在火星基准测试的多个下游任务上,显著优于现有预训练模型和监督学习方法。

📝 摘要(中文)

本文介绍了MOMO,首个用于火星遥感的多传感器基础模型。MOMO利用模型融合技术,整合了从三个关键火星传感器(HiRISE、CTX和THEMIS)独立学习到的表征,这些传感器的分辨率范围从0.25米/像素到100米/像素。该方法的核心是新颖的等验证损失(EVL)策略,该策略在通过任务算术融合之前,基于验证损失相似性对齐跨传感器的检查点。这确保了模型在兼容的收敛阶段进行合并,从而提高了稳定性和泛化能力。MOMO在从火星基准测试中收集的大规模、高质量的约1200万个样本上进行训练,并在9个下游任务上进行评估。与ImageNet预训练、地球观测基础模型、特定传感器预训练和完全监督的基线相比,MOMO实现了更好的整体性能。特别是在分割任务上,MOMO表现出持续且显著的性能提升。结果表明,通过最佳检查点选择策略进行模型合并,为构建多分辨率数据的基础模型提供了一种有效的方法。模型权重、预训练代码、预训练数据和评估代码均可在指定URL获取。

🔬 方法详解

问题定义:论文旨在解决火星遥感领域中,如何有效融合来自不同传感器(HiRISE、CTX、THEMIS)的多分辨率数据的问题。现有方法,如直接使用ImageNet预训练模型或针对特定传感器进行预训练,无法充分利用多源数据的互补信息,导致下游任务性能受限。此外,不同传感器数据在训练过程中的收敛速度不同,直接融合可能导致模型不稳定和泛化能力下降。

核心思路:论文的核心思路是通过模型融合技术,将从不同传感器独立学习到的表征进行整合。为了解决不同传感器模型收敛速度不一致的问题,论文提出了等验证损失(EVL)策略,用于选择合适的模型检查点进行融合。EVL策略确保模型在相似的收敛阶段进行合并,从而提高融合的稳定性和有效性。

技术框架:MOMO的整体框架包括以下几个主要阶段:1) 针对每个传感器(HiRISE、CTX、THEMIS)独立训练模型;2) 使用EVL策略选择每个传感器的最佳检查点;3) 使用任务算术(task arithmetic)方法融合选定的检查点,得到最终的MOMO模型;4) 在多个下游任务上评估MOMO模型的性能。

关键创新:论文最重要的技术创新点在于提出的等验证损失(EVL)策略。EVL策略通过比较不同传感器模型在验证集上的损失函数值,选择损失函数值相似的检查点进行融合。这种方法能够有效地对齐不同传感器模型的收敛阶段,避免了因模型收敛速度不一致而导致的融合问题。

关键设计:EVL策略的关键设计在于损失函数相似度的度量方式。论文采用了一种基于验证损失曲线的动态时间规整(DTW)算法来计算不同模型检查点之间的相似度。此外,在模型融合阶段,论文采用了任务算术方法,该方法通过对模型权重进行加权平均来实现融合,权重的大小取决于每个模型在特定任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MOMO在Mars-Bench的9个下游任务上进行了评估,结果表明其整体性能优于ImageNet预训练模型、地球观测基础模型、特定传感器预训练模型以及完全监督的基线模型。特别是在分割任务上,MOMO表现出持续且显著的性能提升。例如,在陨石坑分割任务上,MOMO的F1-score比最佳基线提高了约5%。这些结果验证了MOMO模型融合策略的有效性。

🎯 应用场景

MOMO模型可广泛应用于火星地质地貌分析、陨石坑识别、潜在水冰资源探测等领域。通过整合多源遥感数据,MOMO能够提供更全面、更精确的火星地表信息,为未来的火星探测任务提供有力支持,并加深我们对火星演化历史的理解。该模型也为其他行星遥感任务提供借鉴,推动行星科学的发展。

📄 摘要(原文)

We introduce MOMO, the first multi-sensor foundation model for Mars remote sensing. MOMO uses model merge to integrate representations learned independently from three key Martian sensors (HiRISE, CTX, and THEMIS), spanning resolutions from 0.25 m/pixel to 100 m/pixel. Central to our method is our novel Equal Validation Loss (EVL) strategy, which aligns checkpoints across sensors based on validation loss similarity before fusion via task arithmetic. This ensures models are merged at compatible convergence stages, leading to improved stability and generalization. We train MOMO on a large-scale, high-quality corpus of $\sim 12$ million samples curated from Mars orbital data and evaluate it on 9 downstream tasks from Mars-Bench. MOMO achieves better overall performance compared to ImageNet pre-trained, earth observation foundation model, sensor-specific pre-training, and fully-supervised baselines. Particularly on segmentation tasks, MOMO shows consistent and significant performance improvement. Our results demonstrate that model merging through an optimal checkpoint selection strategy provides an effective approach for building foundation models for multi-resolution data. The model weights, pretraining code, pretraining data, and evaluation code are available at:this https URL.