Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation

📄 arXiv: 2603.12538v1 📥 PDF

作者: Alaa Dalaq, Muzammil Behzad

分类: cs.CV, cs.AI

发布日期: 2026-03-13


💡 一句话要点

提出SERA:一种用于指代图像分割的空时语义专家路由架构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代图像分割 视觉-语言模型 专家路由 自适应细化 跨模态注意力

📋 核心要点

  1. 现有指代图像分割方法依赖统一细化策略,无法充分满足多样化推理需求,导致分割结果存在区域破碎、边界模糊等问题。
  2. SERA通过引入表达式感知的专家路由机制,在视觉-语言框架内进行空时语义细化,提升分割的空间连贯性和边界精度。
  3. 实验表明,SERA在标准数据集上超越现有基线,尤其在需要精确定位和边界描绘的表达式上效果显著。

📝 摘要(中文)

指代图像分割旨在为自然语言表达式描述的图像区域生成像素级掩码。虽然预训练的视觉-语言模型已经提高了语义基础能力,但许多现有方法仍然依赖于统一的细化策略,无法完全满足指代表达式的多样化推理需求。由于这种不匹配,预测结果通常包含碎片化的区域、不准确的边界,甚至错误的对象,尤其是在为了计算效率而冻结预训练骨干网络时。为了解决这些限制,我们提出了SERA,一种用于指代图像分割的空时语义专家路由架构。SERA在视觉-语言框架内的两个互补阶段引入了轻量级的、表达式感知的专家细化。首先,我们设计了SERA-Adapter,它将表达式条件化的适配器插入到选定的骨干网络块中,通过专家引导的细化和跨模态注意力来提高空间连贯性和边界精度。然后,我们引入SERA-Fusion,通过将token特征重塑为空间网格并在多模态交互之前应用几何保持的专家转换来加强中间视觉表示。此外,一种轻量级的路由机制自适应地加权专家贡献,同时保持与预训练表示的兼容性。为了使这种路由在冻结编码器下保持稳定,SERA使用了一种参数高效的调优策略,该策略仅更新归一化和偏差项,影响不到1%的骨干网络参数。在标准指代图像分割基准上的实验表明,SERA始终优于强大的基线方法,尤其是在需要精确空间定位和精确边界描绘的表达式上,获得了明显的提升。

🔬 方法详解

问题定义:指代图像分割任务旨在根据给定的自然语言描述,分割图像中对应的区域。现有方法,特别是那些为了计算效率而冻结预训练骨干网络的方法,在处理复杂表达式时,容易出现分割区域不连贯、边界不准确,甚至错误分割对象的问题。这些方法通常采用统一的细化策略,无法适应不同指代表达式的多样化推理需求。

核心思路:SERA的核心思路是引入表达式感知的专家路由机制,在视觉-语言模型的不同阶段,根据输入表达式的特点,自适应地选择合适的专家进行特征细化。通过这种方式,模型可以更好地理解表达式的语义信息,并将其与图像中的对应区域进行匹配,从而提高分割的准确性和鲁棒性。

技术框架:SERA的整体架构包含两个主要模块:SERA-Adapter和SERA-Fusion。SERA-Adapter位于骨干网络的中间层,通过插入表达式条件化的适配器,利用专家引导的细化和跨模态注意力来增强空间连贯性和边界精度。SERA-Fusion位于视觉特征和语言特征融合之前,通过将token特征重塑为空间网格,并应用几何保持的专家转换,来加强中间视觉表示。一个轻量级的路由机制用于自适应地加权不同专家的贡献。

关键创新:SERA的关键创新在于其空时语义专家路由架构。不同于以往的统一细化策略,SERA能够根据输入表达式的特点,自适应地选择合适的专家进行特征细化。这种专家路由机制使得模型能够更好地理解表达式的语义信息,并将其与图像中的对应区域进行匹配。此外,SERA采用了一种参数高效的调优策略,仅更新归一化和偏差项,从而在冻结预训练骨干网络的情况下,也能取得良好的性能。

关键设计:SERA-Adapter的关键设计在于表达式条件化的适配器和专家引导的细化。适配器根据输入表达式的语义信息,调整骨干网络的特征表示。专家引导的细化则利用多个专家网络,对特征进行不同角度的分析和处理,从而提高特征的鲁棒性。SERA-Fusion的关键设计在于将token特征重塑为空间网格,并应用几何保持的专家转换。这种设计使得模型能够更好地捕捉图像中的空间信息,并保持分割结果的几何一致性。路由机制的设计则保证了专家贡献的自适应加权,从而使得模型能够根据输入表达式的特点,选择最合适的专家组合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SERA在多个标准指代图像分割数据集上取得了显著的性能提升。例如,在RefCOCO、RefCOCO+和G-Ref数据集上,SERA均优于现有的基线方法。尤其是在需要精确空间定位和边界描绘的表达式上,SERA的性能提升更为明显。实验结果表明,SERA能够有效地提高指代图像分割的准确性和鲁棒性。

🎯 应用场景

SERA在指代图像分割领域具有广泛的应用前景,例如人机交互、智能安防、自动驾驶等。在人机交互中,SERA可以帮助机器更好地理解用户的指令,从而实现更自然、更智能的交互。在智能安防中,SERA可以用于监控视频中的目标检测和跟踪。在自动驾驶中,SERA可以用于识别和分割道路上的各种物体,例如车辆、行人、交通标志等。未来,SERA还可以应用于医学图像分析、遥感图像解译等领域。

📄 摘要(原文)

Referring image segmentation aims to produce a pixel-level mask for the image region described by a natural-language expression. Although pretrained vision-language models have improved semantic grounding, many existing methods still rely on uniform refinement strategies that do not fully match the diverse reasoning requirements of referring expressions. Because of this mismatch, predictions often contain fragmented regions, inaccurate boundaries, or even the wrong object, especially when pretrained backbones are frozen for computational efficiency. To address these limitations, we propose SERA, a Spatio-Semantic Expert Routing Architecture for referring image segmentation. SERA introduces lightweight, expression-aware expert refinement at two complementary stages within a vision-language framework. First, we design SERA-Adapter, which inserts an expression-conditioned adapter into selected backbone blocks to improve spatial coherence and boundary precision through expert-guided refinement and cross-modal attention. We then introduce SERA-Fusion, which strengthens intermediate visual representations by reshaping token features into spatial grids and applying geometry-preserving expert transformations before multimodal interaction. In addition, a lightweight routing mechanism adaptively weights expert contributions while remaining compatible with pretrained representations. To make this routing stable under frozen encoders, SERA uses a parameter-efficient tuning strategy that updates only normalization and bias terms, affecting less than 1% of the backbone parameters. Experiments on standard referring image segmentation benchmarks show that SERA consistently outperforms strong baselines, with especially clear gains on expressions that require accurate spatial localization and precise boundary delineation.