FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching

📄 arXiv: 2605.05077v1 📥 PDF

作者: Andranik Sargsyan, Shant Navasardyan

分类: cs.CV

发布日期: 2026-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

提出FlowDIS以解决细粒度图像分割问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 二分图像分割 流匹配 语言指导 细粒度分割 深度学习

📋 核心要点

  1. 现有的二分图像分割方法在保留细节和捕捉前景语义结构方面存在不足,影响了分割精度。
  2. FlowDIS通过流匹配框架学习时间依赖的向量场,并结合文本提示,实现了精确的像素级分割。
  3. 实验结果显示,FlowDIS在DIS-TE测试集上比最佳现有方法提高了5.5%的$F_β^ω$度量,MAE降低了43%。

📝 摘要(中文)

准确的图像分割对于现代计算机视觉应用至关重要,如图像编辑、自动驾驶和医学图像分析。近年来,二分图像分割(DIS)已成为训练和评估高精度分割模型的标准任务。现有DIS方法往往无法保留细粒度细节或完全捕捉前景的语义结构。为了解决这些挑战,本文提出了FlowDIS,这是一种基于流匹配框架的新型二分图像分割方法,学习时间依赖的向量场,将图像分布传输到相应的掩码分布,并可选择性地基于文本提示进行条件化。通过我们的基于位置的实例配对(PAIP)训练策略,FlowDIS通过文本提示提供强大的可控性,实现精确的像素级对象分割。大量实验表明,我们的方法在有无语言指导的情况下均显著优于现有最先进的方法。

🔬 方法详解

问题定义:本文旨在解决现有二分图像分割方法在细粒度细节保留和前景语义捕捉方面的不足,导致分割结果不够准确。

核心思路:FlowDIS的核心思路是利用流匹配框架,通过学习时间依赖的向量场,将图像分布有效地传输到相应的掩码分布,并通过文本提示增强分割的可控性。

技术框架:FlowDIS的整体架构包括流匹配模块和基于位置的实例配对(PAIP)训练策略。流匹配模块负责学习图像与掩码之间的映射,而PAIP策略则通过文本提示引导分割过程。

关键创新:FlowDIS的主要创新在于引入了流匹配框架和PAIP训练策略,使得分割过程不仅依赖于图像信息,还能结合语言提示,从而实现更高的分割精度。

关键设计:在关键设计上,FlowDIS采用了特定的损失函数以优化流匹配效果,并在网络结构中引入了位置感知机制,以增强对细节的捕捉能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在DIS-TE测试集上,FlowDIS相比于最佳现有方法提高了5.5%的$F_β^ω$度量,并将平均绝对误差(MAE)降低了43%。这些实验结果表明,FlowDIS在有无语言指导的情况下均显著优于现有技术,展示了其强大的分割能力。

🎯 应用场景

FlowDIS在图像编辑、自动驾驶和医学图像分析等领域具有广泛的应用潜力。其精确的像素级分割能力可以帮助提升自动化程度,改善用户体验,并在医学影像中提供更可靠的诊断支持。未来,FlowDIS可能会与其他深度学习技术结合,进一步推动智能视觉系统的发展。

📄 摘要(原文)

Accurate image segmentation is essential for modern computer vision applications such as image editing, autonomous driving, and medical image analysis. In recent years, Dichotomous Image Segmentation (DIS) has become a standard task for training and evaluating highly accurate segmentation models. Existing DIS approaches often fail to preserve fine-grained details or fully capture the semantic structure of the foreground. To address these challenges, we present FlowDIS, a novel dichotomous image segmentation method built on the flow matching framework, which learns a time-dependent vector field to transport the image distribution to the corresponding mask distribution, optionally conditioned on a text prompt. Moreover, with our Position-Aware Instance Pairing (PAIP) training strategy, FlowDIS offers strong controllability through text prompts, enabling precise, pixel-level object segmentation. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art approaches both with and without language guidance. Compared with the best prior DIS method, FlowDIS achieves a 5.5% higher $F_β^ω$ measure and 43% lower MAE ($\mathcal{M}$) on the DIS-TE test set. The code is available at: https://github.com/Picsart-AI-Research/FlowDIS