Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation
作者: Yunkai Yang, Yudong Zhang, Kunquan Zhang, Jinxiao Zhang, Xinying Chen, Haohuan Fu, Runmin Dong
分类: cs.CV
发布日期: 2025-12-18
💡 一句话要点
提出TODSynth框架,用于遥感语义分割任务的数据合成与控制优化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感语义分割 数据合成 可控生成 扩散模型 Transformer
📋 核心要点
- 遥感语义分割依赖大量标注数据,但人工标注成本高昂,合成数据质量难以保证。
- TODSynth框架通过多模态扩散Transformer和控制校正流匹配,生成高质量、任务相关的合成数据。
- 实验表明,该方法优于现有可控生成方法,显著提升了遥感语义分割的性能。
📝 摘要(中文)
随着可控生成技术的快速发展,训练数据合成已成为扩展遥感(RS)标注数据集和减少人工标注的一种有前景的方法。然而,语义掩码控制的复杂性和采样质量的不确定性常常限制了合成数据在下游语义分割任务中的效用。为了应对这些挑战,我们提出了一个面向任务的数据合成框架(TODSynth),包括一个具有统一三重注意力的多模态扩散Transformer(MM-DiT)和一个由任务反馈指导的即插即用采样策略。基于强大的DiT生成基础模型,我们系统地评估了不同的控制方案,表明文本-图像-掩码联合注意力方案与图像和掩码分支的完全微调相结合,显著提高了遥感语义分割数据合成的有效性,尤其是在少样本和复杂场景中。此外,我们提出了一种控制校正流匹配(CRFM)方法,该方法在早期高可塑性阶段动态调整由语义损失引导的采样方向,从而减轻生成图像的不稳定性,并弥合合成数据与下游分割任务之间的差距。大量实验表明,我们的方法始终优于最先进的可控生成方法,为遥感语义分割生成更稳定和面向任务的合成数据。
🔬 方法详解
问题定义:遥感语义分割任务需要大量的标注数据,而人工标注成本高昂且耗时。现有的数据合成方法在控制语义掩码的复杂性和保证采样质量方面存在挑战,导致合成数据在下游分割任务中的效用受限。尤其是在少样本和复杂场景下,合成数据的质量难以满足需求。
核心思路:论文的核心思路是提出一个面向任务的数据合成框架TODSynth,该框架能够生成高质量、任务相关的合成数据,从而提高遥感语义分割的性能。通过多模态扩散Transformer(MM-DiT)实现对文本、图像和掩码的联合控制,并利用控制校正流匹配(CRFM)方法动态调整采样方向,从而减轻生成图像的不稳定性。
技术框架:TODSynth框架主要包含两个核心模块:MM-DiT和CRFM。MM-DiT是一个基于扩散Transformer的生成模型,它接收文本描述、图像和语义掩码作为输入,生成相应的遥感图像。CRFM则是一个采样策略,它在生成过程中利用语义损失动态调整采样方向,从而提高生成图像的质量和任务相关性。整个流程包括:1) 使用MM-DiT生成初始图像;2) 使用CRFM对图像进行优化,使其更符合语义分割任务的需求。
关键创新:该论文的关键创新在于:1) 提出了一个统一的三重注意力机制,能够有效地融合文本、图像和掩码信息,从而实现对生成过程的精细控制;2) 提出了CRFM方法,该方法能够动态调整采样方向,从而减轻生成图像的不稳定性,并弥合合成数据与下游分割任务之间的差距。
关键设计:MM-DiT采用了DiT作为基础模型,并在此基础上添加了文本和掩码分支。三重注意力机制被设计用于融合来自不同模态的信息。CRFM使用语义分割损失作为指导信号,动态调整采样方向。在训练过程中,使用了完全微调策略,对图像和掩码分支进行优化。具体的损失函数包括扩散模型的标准损失函数以及语义分割损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TODSynth框架在遥感语义分割任务中取得了显著的性能提升。与最先进的可控生成方法相比,TODSynth能够生成更稳定和面向任务的合成数据。具体而言,在少样本和复杂场景下,TODSynth的性能提升尤为明显,证明了其在实际应用中的潜力。
🎯 应用场景
该研究成果可广泛应用于遥感图像处理领域,例如城市规划、环境监测、灾害评估等。通过合成高质量的训练数据,可以降低人工标注成本,提高遥感语义分割的精度和效率。未来,该方法有望推广到其他需要大量标注数据的计算机视觉任务中。
📄 摘要(原文)
With the rapid progress of controllable generation, training data synthesis has become a promising way to expand labeled datasets and alleviate manual annotation in remote sensing (RS). However, the complexity of semantic mask control and the uncertainty of sampling quality often limit the utility of synthetic data in downstream semantic segmentation tasks. To address these challenges, we propose a task-oriented data synthesis framework (TODSynth), including a Multimodal Diffusion Transformer (MM-DiT) with unified triple attention and a plug-and-play sampling strategy guided by task feedback. Built upon the powerful DiT-based generative foundation model, we systematically evaluate different control schemes, showing that a text-image-mask joint attention scheme combined with full fine-tuning of the image and mask branches significantly enhances the effectiveness of RS semantic segmentation data synthesis, particularly in few-shot and complex-scene scenarios. Furthermore, we propose a control-rectify flow matching (CRFM) method, which dynamically adjusts sampling directions guided by semantic loss during the early high-plasticity stage, mitigating the instability of generated images and bridging the gap between synthetic data and downstream segmentation tasks. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art controllable generation methods, producing more stable and task-oriented synthetic data for RS semantic segmentation.