SkyNative: A Native Multimodal Framework for Remote Sensing Visual Evidence Reasoning

📄 arXiv: 2605.17949v1 📥 PDF

作者: Xiao Yang, Ronghao Fu, Zhiwen Lin, Zhuoran Duan, Jiashun Zhu, Jiasen Hu, Lang Sun, Weipeng Zhang, Jiaqi Liu, Xu Na, Haoran Liu, Weijie Zhang, Bo Yang

分类: cs.CV

发布日期: 2026-05-18


💡 一句话要点

SkyNative:一种用于遥感视觉证据推理的原生多模态框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 多模态学习 视觉语言模型 Transformer 空间推理

📋 核心要点

  1. 现有遥感视觉-语言模型依赖预训练视觉编码器,易丢失局部视觉证据,导致细粒度推理受语言先验影响。
  2. SkyNative采用无编码器架构,直接将图像表示为patch token,并引入模态感知解耦机制协调视觉和文本。
  3. 实验表明,SkyNative在遥感理解和空间推理任务中表现出更强的图像基础感知和抗语言先验干扰能力。

📝 摘要(中文)

遥感视觉-语言模型通常依赖于预训练的视觉编码器将图像转换为语义特征,然后再进行语言模型的推理。虽然这种方法对于场景级理解有效,但它可能会过早地压缩局部视觉证据,使得细粒度的空间推理容易受到语言先验的影响,尤其是在超高分辨率遥感图像中。我们提出了SkyNative,一种用于遥感的原生多模态框架,它采用无编码器的架构,移除预训练的视觉骨干网络,直接将图像表示为语言模型token空间中的原始patch token。为了协调低级视觉patch和文本token,SkyNative引入了一种模态感知的解耦机制,该机制在统一的自回归骨干网络中使用模态特定的参数。我们进一步引入了一个视觉依赖基准,通过渐进的视觉退化和误导性的文本提示来诊断模型是否将其答案建立在图像证据之上。在标准遥感理解任务和大型空间推理评估中,SkyNative显示出更强的图像基础感知能力,并提高了对提示引起的语言先验的鲁棒性。这些结果表明,原生patch级别的多模态建模是可靠的遥感视觉-语言推理的一个有希望的方向。

🔬 方法详解

问题定义:遥感视觉-语言模型在处理超高分辨率图像时,由于依赖预训练的视觉编码器,容易过早压缩局部视觉信息,导致模型在进行细粒度空间推理时,更容易受到语言先验的影响,从而无法准确地基于图像证据进行推理。现有方法的痛点在于视觉信息提取的瓶颈和对语言信息的过度依赖。

核心思路:SkyNative的核心思路是移除预训练的视觉编码器,直接将原始图像patch作为token输入到语言模型中,从而保留更多的原始视觉信息。通过模态感知的解耦机制,区分处理视觉和文本信息,避免视觉信息在早期阶段被压缩或扭曲。这样设计的目的是为了增强模型对图像证据的依赖,减少语言先验的干扰,提高推理的准确性和可靠性。

技术框架:SkyNative的整体架构是一个无编码器的多模态框架。它首先将遥感图像分割成patch,然后将这些patch直接作为token输入到语言模型中。为了区分视觉和文本token,SkyNative引入了模态感知的解耦机制,该机制在自回归语言模型的每一层都使用模态特定的参数。框架包含图像patch嵌入模块、文本token嵌入模块以及一个统一的自回归Transformer骨干网络。

关键创新:SkyNative最重要的技术创新点在于其原生多模态建模方法,即直接使用原始图像patch作为token,避免了预训练视觉编码器的信息损失。此外,模态感知的解耦机制也是一个关键创新,它允许模型根据输入token的模态(视觉或文本)自适应地调整参数,从而更好地处理不同模态的信息。与现有方法相比,SkyNative的本质区别在于它从根本上改变了视觉信息的处理方式,从依赖预训练特征到直接利用原始像素信息。

关键设计:SkyNative的关键设计包括:1) Patch大小的选择,需要平衡计算复杂度和信息保留;2) 模态感知解耦机制的具体实现,例如使用不同的线性层或注意力机制来处理视觉和文本token;3) 自回归Transformer骨干网络的结构和参数设置,需要保证模型能够有效地学习和推理多模态信息;4) 损失函数的设计,可能需要引入额外的损失项来鼓励模型更多地依赖视觉证据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SkyNative在标准遥感理解任务和大型空间推理评估中均取得了显著的性能提升。通过视觉退化和误导性文本提示的视觉依赖基准测试,证明了SkyNative具有更强的图像基础感知能力和对语言先验的鲁棒性。具体性能数据和对比基线信息在论文中详细给出,表明SkyNative在多个指标上优于现有方法。

🎯 应用场景

SkyNative在遥感图像分析领域具有广泛的应用前景,例如土地覆盖分类、灾害监测、城市规划和农业监测等。通过提高模型对图像证据的依赖,可以更准确地识别地物变化、评估灾害损失和优化资源配置。该研究的实际价值在于提高遥感图像分析的可靠性和精度,为决策提供更可靠的依据。未来,SkyNative可以扩展到其他多模态遥感数据,例如SAR和LiDAR数据,进一步提升遥感图像分析的能力。

📄 摘要(原文)

Remote sensing vision-language models commonly rely on pretrained visual encoders to convert images into semantic features before language-model reasoning. While effective for scene-level understanding, this pipeline may prematurely compress local visual evidence, making fine-grained spatial reasoning vulnerable to language priors, especially in ultra-high-resolution remote sensing imagery. We present SkyNative, a native multimodal framework for remote sensing that adopts an encoder-free architecture, removing the pretrained visual backbone to directly represent images as raw patch tokens in the language-model token space. To reconcile low-level visual patches with textual tokens, SkyNative introduces a modality-aware decoupling mechanism that uses modality-specific parameters within a unified autoregressive backbone. We further introduce a visual reliance benchmark that diagnoses whether models ground their answers in image evidence through progressive visual degradation and misleading textual prompts. Across standard remote sensing understanding tasks and large-format spatial reasoning evaluations, SkyNative shows stronger image-grounded perception and improved robustness against prompt-induced language priors. These results suggest that native patch-level multimodal modeling is a promising direction for reliable remote sensing vision-language reasoning.