PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation

作者: Shuyan Ke, Yifan Mei, Changli Wu, Yonghan Zheng, Jiayi Ji, Liujuan Cao, Rongrong Ji

分类: cs.CV

发布日期: 2026-04-17

备注: Accepted to CVPR 2026 (highlight)

💡 一句话要点

提出PixDLM，用于无人机遥感图像推理分割，并构建DRSeg基准数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机遥感 推理分割 多模态学习 语言模型 基准数据集

📋 核心要点

现有方法难以应对无人机图像的倾斜视角、超高分辨率和极端尺度变化等挑战。
提出PixDLM，一种像素级多模态语言模型，作为无人机推理分割任务的统一基线。
构建了大规模无人机推理分割基准数据集DRSeg，包含1万张高分辨率航拍图像。

📝 摘要（中文）

推理分割最近已从地面场景扩展到遥感图像，但无人机数据带来了独特的挑战，包括倾斜视角、超高分辨率和极端尺度变化。为了解决这些问题，我们正式定义了无人机推理分割任务，并将其语义需求组织成三个维度：空间、属性和场景级推理。基于此，我们构建了DRSeg，这是一个大规模的无人机推理分割基准数据集，包含1万张高分辨率航拍图像，并配有跨所有三种推理类型的Chain-of-Thought QA监督。作为基准的配套，我们引入了PixDLM，一个简单而有效的像素级多模态语言模型，作为此任务的统一基线。在DRSeg上的实验建立了强大的基线结果，并突出了无人机推理分割的独特挑战，为未来的研究奠定了坚实的基础。

🔬 方法详解

问题定义：论文旨在解决无人机（UAV）遥感图像的推理分割问题。现有的推理分割方法主要针对地面场景，无法直接应用于无人机图像，因为无人机图像具有倾斜视角、超高分辨率和极端尺度变化等特点，导致现有方法性能下降。此外，缺乏专门针对无人机图像推理分割的大规模数据集也是一个痛点。

核心思路：论文的核心思路是构建一个像素级别的多模态语言模型（PixDLM），该模型能够同时处理图像信息和文本信息，从而实现对无人机图像的推理分割。通过结合视觉信息和语言信息，模型可以更好地理解图像内容，并进行准确的分割。同时，论文还构建了一个大规模的无人机图像推理分割数据集（DRSeg），为模型训练和评估提供数据支持。

技术框架：PixDLM是一个双路径的多模态语言模型。整体框架包含两个主要分支：图像分支和文本分支。图像分支负责提取图像的视觉特征，文本分支负责处理与图像相关的文本描述（例如，Chain-of-Thought QA）。这两个分支的输出特征被融合在一起，用于预测像素级别的分割结果。具体流程是：首先，图像通过卷积神经网络提取特征；然后，文本通过Transformer模型进行编码；最后，图像特征和文本特征通过跨模态融合模块进行交互，得到最终的像素级别分割预测。

关键创新：论文的关键创新在于提出了PixDLM，一个像素级别的多模态语言模型，并将其应用于无人机图像推理分割任务。与传统的图像分割方法相比，PixDLM能够利用文本信息来辅助分割，从而提高分割的准确性。此外，论文还构建了DRSeg数据集，为无人机图像推理分割领域的研究提供了新的资源。

关键设计：PixDLM的关键设计包括：1) 使用卷积神经网络（CNN）提取图像特征；2) 使用Transformer模型编码文本信息；3) 设计跨模态融合模块，将图像特征和文本特征进行有效融合；4) 使用像素级别的交叉熵损失函数进行训练。DRSeg数据集的关键设计包括：1) 包含1万张高分辨率航拍图像；2) 提供空间、属性和场景级三个维度的Chain-of-Thought QA监督；3) 图像具有较高的分辨率和较大的尺度变化。

🖼️ 关键图片

📊 实验亮点

论文在构建的DRSeg数据集上进行了实验，结果表明PixDLM模型能够取得较好的分割效果，并建立了强大的基线结果。实验结果突出了无人机推理分割的独特挑战，为未来的研究奠定了基础。具体的性能数据和对比基线信息在摘要中未明确给出，属于未知信息。

🎯 应用场景

该研究成果可应用于智慧城市建设、农业监测、灾害评估等领域。例如，可以利用无人机图像和PixDLM模型自动识别城市中的建筑物、道路和绿地，为城市规划提供数据支持。在农业领域，可以用于监测农作物的生长情况，及时发现病虫害。在灾害评估中，可以快速评估灾害造成的损失，为救援工作提供指导。未来，该技术有望在更多领域得到应用，并产生重要的社会和经济价值。

📄 摘要（原文）

Reasoning segmentation has recently expanded from ground-level scenes to remote-sensing imagery, yet UAV data poses distinct challenges, including oblique viewpoints, ultra-high resolutions, and extreme scale variations. To address these issues, we formally define the UAV Reasoning Segmentation task and organize its semantic requirements into three dimensions: Spatial, Attribute, and Scene-level reasoning. Based on this formulation, we construct DRSeg, a large-scale benchmark for UAV reasoning segmentation, containing 10k high-resolution aerial images paired with Chain-of-Thought QA supervision across all three reasoning types. As a benchmark companion, we introduce PixDLM, a simple yet effective pixel-level multimodal language model that serves as a unified baseline for this task. Experiments on DRSeg establish strong baseline results and highlight the unique challenges of UAV reasoning segmentation, providing a solid foundation for future research.

PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理