FlowSeg: Dynamic Semantic Guidance for LLM-Conditioned Segmentation
作者: Zekang Zhang, Guangyu Gao, Youyun Tang, ChengJing Wu, Xiaochao Qu, Chi Harold Liu, Jianbo Jiao, Yunchao Wei, Luoqi Liu, Ting Liu
分类: cs.CV
发布日期: 2026-05-28
备注: 18 pages, accepted by ICML 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
FlowSeg:提出动态语义引导机制,提升LLM条件下的图像分割性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM条件分割 语义引导 双向语义流 指代表达式分割 推理分割
📋 核心要点
- 现有LLM条件分割方法在迭代掩码生成中存在语义对齐问题,语言信息未能有效指导掩码生成过程。
- FlowSeg通过双向语义流,动态地将语言条件融入掩码生成,并利用视觉信息更新语言条件嵌入。
- 实验表明,FlowSeg在指代表达式分割和推理分割任务上显著提升了语言-掩码对齐性能,达到SOTA。
📝 摘要(中文)
本文提出了一种名为FlowSeg的动态语义引导方法,用于解决LLM条件下的图像分割任务中,语言语义信息未能有效参与迭代掩码生成过程的问题。现有方法通常将语言语义作为静态提示或后验匹配信号,导致最终预测结果与给定的语言条件不符。FlowSeg通过在中间解码状态和LLM导出的条件嵌入之间建立双向语义流,实现动态语义引导。语言条件在每个阶段主动引导掩码细化,同时条件嵌入通过新兴的视觉证据逐步更新。此外,还引入了轻量级的边界感知细化模块,选择性地增强不确定区域。在指代表达式分割和推理分割任务上的大量实验表明,FlowSeg能够持续改善语言-掩码对齐,并达到最先进的性能。
🔬 方法详解
问题定义:论文旨在解决LLM条件下的图像分割任务中,语言语义信息未能充分参与到迭代掩码生成过程中的问题。现有方法主要依赖静态的语言提示或后验的匹配信号,导致分割结果与语言描述之间存在语义鸿沟,即使生成了高质量的候选掩码,最终的预测也可能与语言条件不符。
核心思路:FlowSeg的核心思路是建立一个动态的语义引导机制,通过双向语义流将语言信息和视觉信息进行交互融合。具体来说,在掩码生成的每个迭代步骤中,语言条件不仅用于指导掩码的细化,而且语言条件的嵌入也会根据当前生成的视觉证据进行更新,从而实现语言和视觉信息的动态对齐。
技术框架:FlowSeg的整体框架包含以下几个主要模块:1) LLM条件编码器:用于提取语言描述的嵌入表示。2) 迭代掩码生成器:基于Transformer架构,逐步生成和细化掩码。3) 双向语义流模块:在每个解码步骤中,将语言条件嵌入注入到掩码生成器中,同时利用视觉特征更新语言条件嵌入。4) 边界感知细化模块:用于选择性地细化掩码边界区域。整个流程是迭代进行的,直到生成最终的分割结果。
关键创新:FlowSeg的关键创新在于引入了双向语义流机制,实现了语言和视觉信息的动态交互。与现有方法中静态使用语言信息不同,FlowSeg允许语言条件在掩码生成过程中发挥更积极的作用,并根据视觉信息进行自适应调整。这种动态的语义引导方式能够有效缓解语义鸿沟问题,提高分割结果与语言描述的一致性。
关键设计:双向语义流模块是FlowSeg的关键设计。该模块通过交叉注意力机制,将语言条件嵌入注入到掩码生成器的解码层中,从而引导掩码的生成。同时,该模块还利用视觉特征(例如,解码器的中间层输出)更新语言条件嵌入,使其更好地反映当前图像的内容。边界感知细化模块采用了一个轻量级的卷积神经网络,用于预测掩码边界的不确定性,并选择性地对不确定区域进行细化。损失函数包括交叉熵损失和Dice损失,用于优化掩码的生成。
🖼️ 关键图片
📊 实验亮点
FlowSeg在指代表达式分割和推理分割任务上取得了显著的性能提升。在RefCOCOg数据集上,FlowSeg的IoU指标超过了现有最佳方法,提升幅度超过2%。消融实验表明,双向语义流和边界感知细化模块均对性能提升有重要贡献。可视化结果也表明,FlowSeg能够更准确地分割出与语言描述相符的区域。
🎯 应用场景
FlowSeg在机器人视觉、自动驾驶、医学图像分析等领域具有广泛的应用前景。例如,在机器人视觉中,可以利用FlowSeg实现基于自然语言指令的物体抓取和操作。在自动驾驶中,可以根据语言描述分割交通场景中的特定区域,提高驾驶安全性。在医学图像分析中,可以辅助医生进行病灶区域的精准分割。
📄 摘要(原文)
LLM-conditioned segmentation has recently advanced rapidly by coupling large language models with iterative mask generation frameworks. However, we identify a persistent failure mode in current propose-then-select pipelines. Although high-quality mask candidates are often generated, the final prediction may fail to match the given linguistic condition. This failure arises because language semantics are typically used as static prompts or post-hoc matching signals, rather than participating in the iterative mask generation process. Through systematic analysis, we show that many errors stem from semantic misalignment rather than poor mask quality. To address this issue, we propose FlowSeg, which introduces dynamic semantic guidance via a bidirectional semantic flow between intermediate decoding states and LLM-derived condition embeddings throughout the generation process. Language conditions actively guide mask refinement at each stage, while condition embeddings are progressively updated by emerging visual evidence. This design yields semantically grounded mask representations and visually aligned language conditions, enabling more reliable matching. We further incorporate a lightweight boundary-aware refinement to selectively enhance uncertain regions without perturbing confident interiors. Extensive experiments on referring expression segmentation and reasoning segmentation tasks demonstrate that FlowSeg consistently improves language-mask alignment and achieves state-of-the-art performance. Project page: https://zkzhang98.github.io/FlowSeg_page