PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation
作者: Gensheng Pei, Xiruo Jiang, Xinhao Cai, Tao Chen, Yazhou Yao, Byeungwoo Jeon
分类: cs.CV
发布日期: 2026-03-23
备注: accepted by CVPR 2026
💡 一句话要点
提出PEARL,通过几何对齐语义实现免训练开放词汇语义分割。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇语义分割 免训练学习 Procrustes分析 拉普拉斯传播 几何对齐
📋 核心要点
- 现有免训练开放词汇语义分割方法依赖繁琐后处理,或割裂文本与视觉信息,忽略跨模态几何关系。
- PEARL通过Procrustes对齐和文本感知拉普拉斯传播,实现几何与语义对齐,无需训练即可完成分割。
- 实验表明,PEARL在标准数据集上取得了最先进的免训练开放词汇语义分割性能,无需额外数据或骨干网络。
📝 摘要(中文)
免训练开放词汇语义分割(OVSS)能够在无需重新训练的情况下快速适应新的标签集。然而,许多方法依赖于繁重的后处理,或孤立地处理文本和视觉信息,导致跨模态几何信息未被充分利用。其他方法引入辅助视觉骨干网络或多模型流水线,增加了复杂性和延迟,同时牺牲了设计的简洁性。我们提出了PEARL,即Procrustes对齐与文本感知拉普拉斯传播,它是一个紧凑的两步推理过程,遵循对齐-然后-传播的原则。Procrustes对齐步骤在最后一个自注意力模块内执行正交投影,通过稳定的极坐标迭代将键旋转到查询子空间。然后,文本感知的拉普拉斯传播通过置信度加权的文本引导图求解,在小网格上细化每个像素的logits:文本提供数据信任信号和邻居门控,而图像梯度保留边界。我们的方法是完全免训练的、即插即用的,并且只使用固定常数,通过小的每头投影和几个共轭梯度步骤来增加最小的延迟。我们的方法PEARL在标准基准测试中,无需额外数据或辅助骨干网络,在有背景和无背景协议下,均实现了免训练OVSS的最先进性能。
🔬 方法详解
问题定义:论文旨在解决免训练开放词汇语义分割(OVSS)问题。现有方法的痛点在于:1) 依赖于复杂的后处理;2) 孤立地处理文本和视觉信息,未能有效利用跨模态几何信息;3) 引入额外的视觉骨干网络或多模型pipeline,增加了计算复杂度和延迟,牺牲了模型简洁性。
核心思路:PEARL的核心思路是“对齐-然后-传播”。首先,通过Procrustes分析将视觉特征与文本特征进行几何对齐,然后在对齐后的特征上进行文本感知的拉普拉斯传播,以细化分割结果。这种设计旨在充分利用跨模态信息,同时保持模型的简洁性和效率。
技术框架:PEARL包含两个主要步骤:1) Procrustes对齐:在Transformer的最后一个自注意力模块中,使用Procrustes分析将键(key)向量旋转到查询(query)向量的子空间,实现视觉和文本特征的对齐。2) 文本感知的拉普拉斯传播:利用文本信息引导拉普拉斯传播,在图像的小网格上细化像素级别的logits。文本信息提供数据信任信号和邻居门控,图像梯度用于保持分割边界的清晰。
关键创新:PEARL的关键创新在于将Procrustes分析引入到免训练开放词汇语义分割任务中,通过几何对齐的方式融合文本和视觉信息。与现有方法相比,PEARL无需额外的训练数据或辅助骨干网络,实现了更简洁、高效的分割流程。
关键设计:Procrustes对齐使用稳定的极坐标迭代方法,确保对齐过程的稳定性。文本感知的拉普拉斯传播使用置信度加权的图求解,文本信息作为数据信任信号,图像梯度用于保持边界。模型只使用固定常数,并采用小的每头投影和几个共轭梯度步骤,以最小化延迟。
🖼️ 关键图片
📊 实验亮点
PEARL在免训练开放词汇语义分割任务上取得了显著的性能提升,在标准基准测试中达到了最先进水平。在没有额外数据或辅助骨干网络的情况下,PEARL在有背景和无背景两种协议下均优于现有方法,证明了其有效性和泛化能力。
🎯 应用场景
PEARL可应用于机器人视觉、自动驾驶、图像编辑等领域。其免训练特性使其能够快速适应新的物体类别和场景,降低了部署成本和维护难度。未来,该方法有望在资源受限的环境中实现高效的语义分割,并促进更智能的人机交互。
📄 摘要(原文)
Training-free open-vocabulary semantic segmentation (OVSS) promises rapid adaptation to new label sets without retraining. Yet, many methods rely on heavy post-processing or handle text and vision in isolation, leaving cross-modal geometry underutilized. Others introduce auxiliary vision backbones or multi-model pipelines, which increase complexity and latency while compromising design simplicity. We present PEARL, \textbf{\underline{P}}rocrust\textbf{\underline{e}}s \textbf{\underline{a}}lignment with text-awa\textbf{\underline{r}}e \textbf{\underline{L}}aplacian propagation, a compact two-step inference that follows an align-then-propagate principle. The Procrustes alignment step performs an orthogonal projection inside the last self-attention block, rotating keys toward the query subspace via a stable polar iteration. The text-aware Laplacian propagation then refines per-pixel logits on a small grid through a confidence-weighted, text-guided graph solve: text provides both a data-trust signal and neighbor gating, while image gradients preserve boundaries. In this work, our method is fully training-free, plug-and-play, and uses only fixed constants, adding minimal latency with a small per-head projection and a few conjugate-gradient steps. Our approach, PEARL, sets a new state-of-the-art in training-free OVSS without extra data or auxiliary backbones across standard benchmarks, achieving superior performance under both with-background and without-background protocols.