Large-Small Model Collaboration for Farmland Semantic Change Detection

📄 arXiv: 2605.12282v1 📥 PDF

作者: Xinjia Li, Rui Wang, Qiurong Peng, Lingfei Ye, Dengrong Zhang, Haoyu Zhang

分类: cs.CV

发布日期: 2026-05-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出大小模型协同框架,用于解决农田语义变化检测中的伪变化问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 农田语义变化检测 大小模型协同 视觉语言模型 伪变化抑制 遥感图像处理

📋 核心要点

  1. 现有农田语义变化检测数据集缺乏细粒度标注,且易受作物轮作等因素引起的伪变化干扰。
  2. 提出大小模型协同框架,利用小型视觉模型学习密集变化表示,大型视觉语言模型进行语义仲裁和伪变化抑制。
  3. 实验表明,该方法在多个数据集上取得了显著的性能提升,尤其是在细粒度农田变化检测方面。

📝 摘要(中文)

农田语义变化检测(SCD)对于耕地保护至关重要,但现有的基准和模型不足以进行细粒度的农田转换监测。当前数据集通常缺乏专用的“from-to”标注,而视觉变化检测模型容易受到物候引起的伪变化的干扰,这些伪变化由作物轮作、季节变化和光照差异引起。为了应对这些挑战,我们构建了HZNU-FCD,这是一个大规模的细粒度农田SCD基准,具有统一的五类农田到非农田的标注协议。它包含4,588个双时相图像对,具有像素级标签,用于实际的农田保护。基于此基准,我们提出了一个大小模型协同的SCD框架,该框架集成了任务驱动的小型视觉模型和冻结的大型视觉语言模型。小型模型,即细粒度差异感知Mamba(FD-Mamba),学习用于边界保持和小区域定位的密集变化表示。大型模型通路,即跨模态逻辑仲裁(CMLA),引入了基于CLIP的文本先验,用于提示引导的语义仲裁和伪变化抑制。为了实现有效的协作,我们设计了一种硬区域协同训练策略,该策略仅在低置信度像素上监督CMLA语义得分图。实验表明,我们的方法在HZNU-FCD上实现了97.63%的F1,96.32%的IoU和96.35%的SCD_IoU_mean,且只有6.65M个可训练参数。与利用视觉语言信息进行变化检测的多模态ChangeCLIP-ViT相比,我们的方法在HZNU-FCD上将F1提高了10.19个百分点。它还在LEVIR-CD上实现了91.43%的F1和84.21%的IoU,在WHU-CD上实现了93.85%的F1和88.41%的IoU,证明了强大的鲁棒性和泛化性。代码可在https://github.com/Lovelymili/FD-Mamba上找到。

🔬 方法详解

问题定义:农田语义变化检测旨在识别农田地块在不同时间段内的土地利用类型变化。现有方法在处理细粒度变化和区分由物候变化引起的伪变化方面存在不足。具体来说,现有数据集缺乏详细的“from-to”标注,使得模型难以学习精确的变化类型。此外,作物轮作、季节性变化和光照差异等因素会导致视觉上的变化,但这些变化并不代表实际的土地利用变化,容易误导模型。

核心思路:该论文的核心思路是利用大小模型协同工作,结合小型视觉模型强大的局部特征提取能力和大型视觉语言模型丰富的语义理解能力。小型模型专注于学习像素级别的密集变化表示,以捕捉细粒度的变化信息。大型模型则利用文本先验知识,对小型模型的结果进行语义仲裁,抑制由物候变化引起的伪变化。

技术框架:整体框架包含两个主要通路:小型模型通路(FD-Mamba)和大型模型通路(CMLA)。FD-Mamba负责提取双时相图像的密集变化特征,生成变化概率图。CMLA利用CLIP模型,将文本描述(例如,农田类型)与视觉特征进行匹配,生成语义得分图。然后,通过硬区域协同训练策略,将两个通路的结果进行融合,得到最终的变化检测结果。

关键创新:该论文的关键创新在于提出了大小模型协同的框架,以及跨模态逻辑仲裁(CMLA)模块。CMLA模块利用大型视觉语言模型的语义理解能力,有效地抑制了伪变化,提高了变化检测的准确性。此外,硬区域协同训练策略能够有效地指导CMLA模块的学习,使其专注于处理小型模型难以区分的区域。

关键设计:FD-Mamba采用了Mamba架构,并针对变化检测任务进行了优化,使其能够更好地捕捉细粒度的变化信息。CMLA模块利用CLIP模型提取图像和文本的特征,并通过余弦相似度计算语义得分。硬区域协同训练策略通过计算小型模型输出的变化概率图的熵,来确定低置信度区域,并仅在这些区域上监督CMLA模块的语义得分图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在HZNU-FCD数据集上取得了显著的性能提升,F1值达到97.63%,IoU达到96.32%,SCD_IoU_mean达到96.35%,且仅有6.65M可训练参数。与ChangeCLIP-ViT相比,F1值提高了10.19个百分点。同时,在LEVIR-CD和WHU-CD数据集上也取得了具有竞争力的结果,证明了其鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于精准农业、耕地保护、土地资源管理等领域。通过准确监测农田语义变化,可以及时发现非法侵占耕地行为,评估土地利用效率,为政府决策提供科学依据,促进农业可持续发展。未来,该方法可扩展到其他遥感图像变化检测任务中。

📄 摘要(原文)

Farmland Semantic Change Detection (SCD) is essential for cultivated land protection, yet existing benchmarks and models remain insufficient for fine-grained farmland conversion monitoring. Current datasets often lack dedicated "from-to" annotations, while visual change detection models are easily disturbed by phenology-induced pseudo-changes caused by crop rotation, seasonal variation, and illumination differences. To address these challenges, we construct HZNU-FCD, a large-scale fine-grained farmland SCD benchmark with a unified five-class farmland-to-non-farmland annotation protocol. It contains 4,588 bitemporal image pairs with pixel-level labels for practical farmland protection. Based on this benchmark, we propose a large-small collaborative SCD framework that integrates a task-driven small visual model with a frozen large vision-language model. The small model, Fine-grained Difference-aware Mamba (FD-Mamba), learns dense change representations for boundary preservation and small-region localization. The large-model pathway, Cross-modal Logical Arbitration (CMLA), introduces CLIP-based textual priors for prompt-guided semantic arbitration and pseudo-change suppression. To enable effective collaboration, we design a hard-region co-training strategy that supervises the CMLA semantic score map only on low-confidence pixels. Experiments show that our method achieves 97.63% F1, 96.32% IoU, and 96.35% SCD_IoU_mean on HZNU-FCD with only 6.65M trainable parameters. Compared with the multimodal ChangeCLIP-ViT, which leverages vision-language information for change detection, our method improves F1 by 10.19 percentage points on HZNU-FCD. It also achieves 91.43% F1 and 84.21% IoU on LEVIR-CD, and 93.85% F1 and 88.41% IoU on WHU-CD, demonstrating strong robustness and generalization. The code is available at https://github.com/Lovelymili/FD-Mamba.