FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation
作者: Yasser Benigmim, Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Raoul de Charette
分类: cs.CV, cs.LG
发布日期: 2025-04-14 (更新: 2025-07-30)
备注: ICCV 2025; Project Page: https://yasserben.github.io/FLOSS/
🔗 代码/项目: GITHUB
💡 一句话要点
FLOSS:开放词汇语义分割中利用单模板分类器提升性能的免训练方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇语义分割 零样本学习 单模板分类器 类别专家 预测熵
📋 核心要点
- 现有开放词汇语义分割方法依赖于平均的类别文本嵌入,忽略了不同模板对性能的影响。
- FLOSS通过预测熵选择每个类别的单模板“专家”分类器,并融合这些专家分类器的输出来提升性能。
- 实验表明,FLOSS能显著提升现有OVSS模型的性能,尤其是在低数据场景下,且无需额外训练。
📝 摘要(中文)
本文挑战了开放词汇语义分割(OVSS)中传统的做法,即使用平均的类别文本嵌入,这些嵌入通常通过使用多个模板(例如,<类别>的照片,<类别>的草图)编码每个类别名称来获得。我们研究了模板对OVSS的影响,发现对于每个类别,都存在单模板分类器(我们称之为类别专家),其性能明显优于传统的平均分类器。首先,为了识别这些类别专家,我们提出了一种新方法,无需任何标记数据或训练即可估计它们。通过利用单模板分类器的类别预测熵,我们选择产生最低熵的分类器作为最可靠的类别专家。其次,我们在一个新的融合过程中结合了类别专家的输出。我们的即插即用方法,称为FLOSS,与现有的OVSS方法正交且互补,无需额外的标签或训练即可提供改进。大量实验表明,FLOSS始终增强了最先进的OVSS模型,在具有不同分布偏移的数据集上泛化良好,并在只有少量未标记图像可用的低数据场景中提供了显着改进。我们的代码可在https://github.com/yasserben/FLOSS 获得。
🔬 方法详解
问题定义:开放词汇语义分割(OVSS)旨在分割图像中未在训练集中出现过的类别。现有方法通常使用多个文本模板(例如“一张猫的照片”、“一只猫的素描”)来生成类别文本嵌入,然后对这些嵌入进行平均。这种平均操作忽略了不同模板对特定类别可能具有不同的区分能力,导致次优的分割性能。
核心思路:本文的核心思想是,对于每个类别,存在一个或少数几个“专家”模板,它们能够比平均后的嵌入更好地代表该类别。因此,与其使用平均嵌入,不如找到这些类别专家,并利用它们的输出来进行分割。
技术框架:FLOSS是一个即插即用的模块,可以添加到现有的OVSS模型中。其主要流程如下:1) 对于每个类别,使用多个文本模板生成多个单模板分类器。2) 使用未标记图像,计算每个单模板分类器的类别预测熵。3) 选择熵最低的分类器作为该类别的“专家”。4) 将所有类别专家的输出进行融合,得到最终的分割结果。
关键创新:FLOSS的关键创新在于提出了一种无需任何标记数据或训练即可自动选择类别专家的方法。通过利用类别预测熵,可以有效地识别出对特定类别具有较高区分能力的单模板分类器。这种方法避免了手动选择或训练类别专家的需要,大大简化了OVSS的流程。
关键设计:FLOSS的关键设计包括:1) 使用类别预测熵作为选择类别专家的标准。熵越低,表示分类器对该类别的预测越自信,因此更可能是一个专家。2) 使用一种简单的融合策略,例如对类别专家的输出进行加权平均。权重的设置可以基于类别专家的置信度或其他指标。具体的损失函数和网络结构取决于所使用的基础OVSS模型,FLOSS本身不引入新的损失函数或网络结构。
🖼️ 关键图片
📊 实验亮点
FLOSS在多个OVSS数据集上进行了评估,结果表明其能够显著提升现有模型的性能。例如,在ADE20K数据集上,FLOSS将基线模型的mIoU提高了多个百分点。此外,FLOSS在低数据场景下表现出色,即使只有少量未标记图像可用,也能有效地选择类别专家并提升分割性能。
🎯 应用场景
FLOSS可应用于各种需要开放词汇语义分割的场景,例如自动驾驶、机器人导航、图像编辑和场景理解。其无需额外训练的特性使其特别适用于资源受限或数据稀缺的环境。未来,FLOSS可以扩展到处理更复杂的场景和类别,并与其他先进的OVSS技术相结合,以实现更高的分割精度。
📄 摘要(原文)
In this paper, we challenge the conventional practice in Open-Vocabulary Semantic Segmentation (OVSS) of using averaged class-wise text embeddings, which are typically obtained by encoding each class name with multiple templates (e.g., a photo of
, a sketch of a ). We investigate the impact of templates for OVSS, and find that for each class, there exist single-template classifiers--which we refer to as class-experts--that significantly outperform the conventional averaged classifier. First, to identify these class-experts, we introduce a novel approach that estimates them without any labeled data or training. By leveraging the class-wise prediction entropy of single-template classifiers, we select those yielding the lowest entropy as the most reliable class-experts. Second, we combine the outputs of class-experts in a new fusion process. Our plug-and-play method, coined FLOSS, is orthogonal and complementary to existing OVSS methods, offering an improvement without the need for additional labels or training. Extensive experiments show that FLOSS consistently enhances state-of-the-art OVSS models, generalizes well across datasets with different distribution shifts, and delivers substantial improvements in low-data scenarios where only a few unlabeled images are available. Our code is available at https://github.com/yasserben/FLOSS .