A Unified Foundation Model for All-in-One Multi-Modal Remote Sensing Image Restoration and Fusion with Language Prompting
作者: Yongchuan Cui, Peng Liu
分类: cs.CV
发布日期: 2026-04-07
🔗 代码/项目: GITHUB
💡 一句话要点
提出LLaRS:用于多模态遥感图像修复与融合的统一基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感图像修复 多模态融合 统一基础模型 语言提示 混合专家层
📋 核心要点
- 现有遥感图像修复和融合方法针对不同退化类型训练独立模型,泛化能力弱,效率低。
- LLaRS通过Sinkhorn-Knopp对齐异构波段,并利用混合专家层提取多尺度特征,实现统一建模。
- LLaRS在LLaRS1M数据集上训练,并在多个任务上超越现有方法,展现了强大的迁移能力。
📝 摘要(中文)
遥感图像常受到云、雾、噪声、分辨率限制和传感器异质性的影响。现有的修复和融合方法通常针对每种退化类型训练单独的模型。本文提出了语言条件的大规模遥感修复模型(LLaRS),这是第一个用于多模态和多任务遥感底层视觉的统一基础模型。LLaRS采用Sinkhorn-Knopp最优传输将异构波段对齐到语义匹配的槽中,通过三个互补的混合专家层(用于空间模式的卷积专家、用于光谱保真度的通道混合专家以及具有低秩适配器的注意力专家,用于全局上下文)路由特征,并通过步长动态权重调整来稳定联合训练。为了训练LLaRS,我们构建了LLaRS1M,一个百万级多任务数据集,涵盖11个修复和增强任务,集成了真实的配对观测和具有多样自然语言提示的受控合成退化。实验表明,LLaRS始终优于七个具有竞争力的模型,并且参数高效的微调实验证明了在未见数据上的强大迁移能力和适应效率。
🔬 方法详解
问题定义:遥感图像由于受到云、雾、噪声等多种因素的影响,图像质量下降,同时不同传感器获取的图像存在异质性。现有的遥感图像修复和融合方法通常是针对特定的退化类型或传感器组合训练独立的模型,缺乏通用性和泛化能力,难以适应复杂多变的实际应用场景。此外,训练这些模型需要大量标注数据,成本高昂。
核心思路:LLaRS的核心思路是构建一个统一的基础模型,能够处理多种退化类型和多模态遥感数据,并通过语言提示来指导模型的行为。通过将不同波段的图像对齐到语义匹配的槽中,并利用混合专家层提取多尺度特征,模型能够学习到通用的遥感图像先验知识。语言提示则可以帮助模型理解用户的意图,并根据不同的任务需求进行自适应调整。
技术框架:LLaRS的整体架构包括以下几个主要模块:1) 输入模块:接收多模态遥感图像和语言提示作为输入。2) 波段对齐模块:使用Sinkhorn-Knopp最优传输算法将异构波段对齐到语义匹配的槽中。3) 特征提取模块:通过三个互补的混合专家层(卷积专家、通道混合专家和注意力专家)提取多尺度特征。4) 任务解码模块:根据语言提示,将提取的特征解码为目标图像。5) 训练模块:使用LLaRS1M数据集进行训练,并通过步长动态权重调整来稳定联合训练。
关键创新:LLaRS的关键创新在于:1) 统一建模:首次提出了一个用于多模态和多任务遥感底层视觉的统一基础模型。2) 语言提示:利用语言提示来指导模型的行为,实现了任务自适应。3) 混合专家层:设计了三个互补的混合专家层,能够有效地提取多尺度特征。4) 大规模数据集:构建了LLaRS1M,一个百万级多任务数据集,为模型的训练提供了充足的数据支持。
关键设计:1) Sinkhorn-Knopp最优传输:用于波段对齐,确保不同波段的特征在语义上对齐。2) 混合专家层:包括卷积专家(用于提取空间模式)、通道混合专家(用于保持光谱保真度)和注意力专家(用于捕捉全局上下文)。注意力专家使用低秩适配器,以减少参数量。3) 步长动态权重调整:用于稳定联合训练,避免模型在不同任务之间发生冲突。4) 损失函数:采用多种损失函数的组合,包括L1损失、L2损失和感知损失等,以提高图像质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLaRS在多个遥感图像修复和融合任务上均取得了显著的性能提升,超越了七个具有竞争力的基线模型。参数高效的微调实验证明了LLaRS在未见数据上的强大迁移能力和适应效率。例如,在去云任务上,LLaRS的PSNR指标平均提升了2dB以上。
🎯 应用场景
LLaRS可应用于多种遥感图像处理任务,如去云、去雾、去噪、超分辨率重建和图像融合等。该模型能够提升遥感数据的质量和可用性,为农业监测、城市规划、灾害评估和环境监测等领域提供更可靠的数据支持,具有重要的实际应用价值和广泛的应用前景。
📄 摘要(原文)
Remote sensing imagery suffers from clouds, haze, noise, resolution limits, and sensor heterogeneity. Existing restoration and fusion approaches train separate models per degradation type. In this work, we present Language-conditioned Large-scale Remote Sensing restoration model (LLaRS), the first unified foundation model for multi-modal and multi-task remote sensing low-level vision. LLaRS employs Sinkhorn-Knopp optimal transport to align heterogeneous bands into semantically matched slots, routes features through three complementary mixture-of-experts layers (convolutional experts for spatial patterns, channel-mixing experts for spectral fidelity, and attention experts with low-rank adapters for global context), and stabilizes joint training via step-level dynamic weight adjustment. To train LLaRS, we construct LLaRS1M, a million-scale multi-task dataset spanning eleven restoration and enhancement tasks, integrating real paired observations and controlled synthetic degradations with diverse natural language prompts. Experiments show LLaRS consistently outperforms seven competitive models, and parameter-efficient finetuning experiments demonstrate strong transfer capability and adaptation efficiency on unseen data. Repo: https://github.com/yc-cui/LLaRS