Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding

📄 arXiv: 2605.07141v1 📥 PDF

作者: Yuan Yao, Qiushi Yang, Humen Zhong, Jiangning Wei, Yifang Men, Shuai Bai, Miaomiao Cui, Zhibo Yang

分类: cs.CV, cs.AI

发布日期: 2026-05-08


💡 一句话要点

提出Qwen3-VL-Seg框架,通过轻量级框引导掩码解码器实现高效开放世界指代分割。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代分割 多模态大模型 视觉定位 参数高效微调 开放世界学习 掩码解码器

📋 核心要点

  1. 现有MLLM在指代分割任务中受限于稀疏边界框输出,而现有分割方案则面临边界重构困难或依赖外部模型导致的巨大部署开销问题。
  2. 提出Qwen3-VL-Seg框架,利用MLLM预测的边界框作为结构先验,通过轻量级框引导掩码解码器实现高效的像素级分割预测。
  3. 实验表明该方法在指代分割与视觉定位任务中表现强劲,在保持通用多模态能力的同时,显著提升了分布外泛化性能与语言理解能力。

📝 摘要(中文)

开放世界指代分割要求将非受限语言表达映射至精确的像素级区域。现有的多模态大模型(MLLM)虽具备强大的视觉定位能力,但输出通常局限于稀疏的边界框坐标,难以满足密集预测需求。现有的基于MLLM的分割方法要么直接预测稀疏轮廓坐标,导致难以重构连续物体边界;要么依赖SAM等外部基础模型,引入了巨大的架构与部署开销。为此,我们提出了Qwen3-VL-Seg,这是一个参数高效的框架,将MLLM预测的边界框作为语义引导的结构先验,并将其解码为像素级指代分割。核心组件是一个轻量级框引导掩码解码器,仅引入17M参数(约占基座模型的0.4%),通过多尺度特征注入、空间语义查询构建及迭代掩码细化实现高效分割。此外,我们构建了SA1B-ORS数据集与ORS-Bench基准,实验表明该模型在闭集与开放世界设置下均表现优异,且在语言密集型指令及分布外泛化方面具有显著优势。

🔬 方法详解

问题定义:论文旨在解决开放世界指代分割(Referring Segmentation)中,MLLM输出稀疏坐标与像素级密集预测之间的鸿沟,同时规避对外部大型分割模型(如SAM)的过度依赖。

核心思路:将MLLM的视觉定位能力与轻量级分割解码器解耦。利用MLLM输出的边界框作为“语义锚点”,通过框引导机制将语义信息注入分割过程,从而实现参数高效的像素级重构。

技术框架:整体架构以Qwen3-VL为基座,引入轻量级框引导掩码解码器。该解码器接收MLLM输出的边界框作为先验,结合多尺度视觉特征,通过空间语义查询构建与迭代掩码细化模块,输出最终的分割掩码。

关键创新:核心创新在于“框引导”设计,仅需17M参数即可实现从框到掩码的转换,无需大型外部模型辅助,极大降低了推理与部署的计算复杂度。

关键设计:采用多尺度空间特征注入以增强细节感知,通过空间语义查询构建实现对目标的精准定位,并引入迭代掩码细化机制,确保在复杂背景下仍能保持边界的连续性与准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Qwen3-VL-Seg仅增加0.4%的参数量,在指代分割任务中展现出卓越性能。在自建的ORS-Bench基准测试中,该模型在处理复杂语言描述及分布外(OOD)样本时,显著优于现有主流方法,同时在通用多模态基准上保持了原有的多模态理解能力,实现了性能与效率的平衡。

🎯 应用场景

该技术可广泛应用于自动驾驶中的精细化场景理解、机器人视觉导航中的物体交互、医疗影像的精准病灶分割以及增强现实(AR)中的实时物体遮罩生成。其轻量化特性使其特别适用于边缘计算设备及对实时性要求较高的多模态交互系统。

📄 摘要(原文)

Open-world referring segmentation requires grounding unconstrained language expressions to precise pixel-level regions. Existing multimodal large language models (MLLMs) exhibit strong open-world visual grounding, but their outputs remain limited to sparse bounding-box coordinates and are insufficient for dense visual prediction. Recent MLLM-based segmentation methods either directly predict sparse contour coordinates, struggling to reconstruct continuous object boundaries, or rely on external segmentation foundation models such as the Segment Anything Model (SAM), introducing substantial architectural and deployment overhead. We present Qwen3-VL-Seg, a parameter-efficient framework that treats the MLLM-predicted box as a semantically grounded structural prior and decodes it into pixel-level referring segmentation. At its core, a lightweight box-guided mask decoder combines multi-scale spatial feature injection, spatial-semantic query construction, box-guided high-resolution pixel fusion, and iterative mask-aware query refinement, introducing only 17M parameters (about 0.4\% of the base model). For scalable open-world training, we construct SA1B-ORS, an SA-1B-derived dataset with two subsets: SA1B-CoRS (category-oriented samples) and SA1B-DeRS (descriptive, instance-specific samples). For evaluation, we curate ORS-Bench, a manually screened benchmark with in-distribution and out-of-distribution subsets covering diverse referring expression types. Extensive experiments on referring expression segmentation, visual grounding, and ORS-Bench show that Qwen3-VL-Seg performs strongly across closed-set and open-world settings, with clear advantages on language-intensive instructions and strong out-of-distribution generalization. Evaluations on general multimodal benchmarks further show that the model broadly preserves general-purpose multimodal competence after segmentation-oriented adaptation.