PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation
作者: Shuyan Ke, Yifan Mei, Changli Wu, Yonghan Zheng, Jiayi Ji, Liujuan Cao, Rongrong Ji
分类: cs.CV
发布日期: 2026-04-17
备注: Accepted to CVPR 2026 (highlight)
💡 一句话要点
提出PixDLM,用于无人机遥感图像推理分割,并构建DRSeg基准数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无人机遥感 推理分割 多模态学习 语言模型 基准数据集
📋 核心要点
- 现有方法难以应对无人机图像的倾斜视角、超高分辨率和极端尺度变化等挑战。
- 提出PixDLM,一种像素级多模态语言模型,作为无人机推理分割任务的统一基线。
- 构建了大规模无人机推理分割基准数据集DRSeg,包含1万张高分辨率航拍图像。
📝 摘要(中文)
推理分割最近已从地面场景扩展到遥感图像,但无人机数据带来了独特的挑战,包括倾斜视角、超高分辨率和极端尺度变化。为了解决这些问题,我们正式定义了无人机推理分割任务,并将其语义需求组织成三个维度:空间、属性和场景级推理。基于此,我们构建了DRSeg,这是一个大规模的无人机推理分割基准数据集,包含1万张高分辨率航拍图像,并配有跨所有三种推理类型的Chain-of-Thought QA监督。作为基准的配套,我们引入了PixDLM,一个简单而有效的像素级多模态语言模型,作为此任务的统一基线。在DRSeg上的实验建立了强大的基线结果,并突出了无人机推理分割的独特挑战,为未来的研究奠定了坚实的基础。
🔬 方法详解
问题定义:论文旨在解决无人机(UAV)遥感图像的推理分割问题。现有的推理分割方法主要针对地面场景,无法直接应用于无人机图像,因为无人机图像具有倾斜视角、超高分辨率和极端尺度变化等特点,导致现有方法性能下降。此外,缺乏专门针对无人机图像推理分割的大规模数据集也是一个痛点。
核心思路:论文的核心思路是构建一个像素级别的多模态语言模型(PixDLM),该模型能够同时处理图像信息和文本信息,从而实现对无人机图像的推理分割。通过结合视觉信息和语言信息,模型可以更好地理解图像内容,并进行准确的分割。同时,论文还构建了一个大规模的无人机图像推理分割数据集(DRSeg),为模型训练和评估提供数据支持。
技术框架:PixDLM是一个双路径的多模态语言模型。整体框架包含两个主要分支:图像分支和文本分支。图像分支负责提取图像的视觉特征,文本分支负责处理与图像相关的文本描述(例如,Chain-of-Thought QA)。这两个分支的输出特征被融合在一起,用于预测像素级别的分割结果。具体流程是:首先,图像通过卷积神经网络提取特征;然后,文本通过Transformer模型进行编码;最后,图像特征和文本特征通过跨模态融合模块进行交互,得到最终的像素级别分割预测。
关键创新:论文的关键创新在于提出了PixDLM,一个像素级别的多模态语言模型,并将其应用于无人机图像推理分割任务。与传统的图像分割方法相比,PixDLM能够利用文本信息来辅助分割,从而提高分割的准确性。此外,论文还构建了DRSeg数据集,为无人机图像推理分割领域的研究提供了新的资源。
关键设计:PixDLM的关键设计包括:1) 使用卷积神经网络(CNN)提取图像特征;2) 使用Transformer模型编码文本信息;3) 设计跨模态融合模块,将图像特征和文本特征进行有效融合;4) 使用像素级别的交叉熵损失函数进行训练。DRSeg数据集的关键设计包括:1) 包含1万张高分辨率航拍图像;2) 提供空间、属性和场景级三个维度的Chain-of-Thought QA监督;3) 图像具有较高的分辨率和较大的尺度变化。
🖼️ 关键图片
📊 实验亮点
论文在构建的DRSeg数据集上进行了实验,结果表明PixDLM模型能够取得较好的分割效果,并建立了强大的基线结果。实验结果突出了无人机推理分割的独特挑战,为未来的研究奠定了基础。具体的性能数据和对比基线信息在摘要中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于智慧城市建设、农业监测、灾害评估等领域。例如,可以利用无人机图像和PixDLM模型自动识别城市中的建筑物、道路和绿地,为城市规划提供数据支持。在农业领域,可以用于监测农作物的生长情况,及时发现病虫害。在灾害评估中,可以快速评估灾害造成的损失,为救援工作提供指导。未来,该技术有望在更多领域得到应用,并产生重要的社会和经济价值。
📄 摘要(原文)
Reasoning segmentation has recently expanded from ground-level scenes to remote-sensing imagery, yet UAV data poses distinct challenges, including oblique viewpoints, ultra-high resolutions, and extreme scale variations. To address these issues, we formally define the UAV Reasoning Segmentation task and organize its semantic requirements into three dimensions: Spatial, Attribute, and Scene-level reasoning. Based on this formulation, we construct DRSeg, a large-scale benchmark for UAV reasoning segmentation, containing 10k high-resolution aerial images paired with Chain-of-Thought QA supervision across all three reasoning types. As a benchmark companion, we introduce PixDLM, a simple yet effective pixel-level multimodal language model that serves as a unified baseline for this task. Experiments on DRSeg establish strong baseline results and highlight the unique challenges of UAV reasoning segmentation, providing a solid foundation for future research.