PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation

作者: Gensheng Pei, Xiruo Jiang, Xinhao Cai, Tao Chen, Yazhou Yao, Byeungwoo Jeon

分类: cs.CV

发布日期: 2026-03-23

备注: accepted by CVPR 2026

💡 一句话要点

提出PEARL，通过几何对齐语义实现免训练开放词汇语义分割。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 免训练学习 Procrustes分析 拉普拉斯传播 几何对齐

📋 核心要点

现有免训练开放词汇语义分割方法依赖繁琐后处理，或割裂文本与视觉信息，忽略跨模态几何关系。
PEARL通过Procrustes对齐和文本感知拉普拉斯传播，实现几何与语义对齐，无需训练即可完成分割。
实验表明，PEARL在标准数据集上取得了最先进的免训练开放词汇语义分割性能，无需额外数据或骨干网络。

📝 摘要（中文）

免训练开放词汇语义分割(OVSS)能够在无需重新训练的情况下快速适应新的标签集。然而，许多方法依赖于繁重的后处理，或孤立地处理文本和视觉信息，导致跨模态几何信息未被充分利用。其他方法引入辅助视觉骨干网络或多模型流水线，增加了复杂性和延迟，同时牺牲了设计的简洁性。我们提出了PEARL，即Procrustes对齐与文本感知拉普拉斯传播，它是一个紧凑的两步推理过程，遵循对齐-然后-传播的原则。Procrustes对齐步骤在最后一个自注意力模块内执行正交投影，通过稳定的极坐标迭代将键旋转到查询子空间。然后，文本感知的拉普拉斯传播通过置信度加权的文本引导图求解，在小网格上细化每个像素的logits：文本提供数据信任信号和邻居门控，而图像梯度保留边界。我们的方法是完全免训练的、即插即用的，并且只使用固定常数，通过小的每头投影和几个共轭梯度步骤来增加最小的延迟。我们的方法PEARL在标准基准测试中，无需额外数据或辅助骨干网络，在有背景和无背景协议下，均实现了免训练OVSS的最先进性能。

🔬 方法详解

问题定义：论文旨在解决免训练开放词汇语义分割（OVSS）问题。现有方法的痛点在于：1) 依赖于复杂的后处理；2) 孤立地处理文本和视觉信息，未能有效利用跨模态几何信息；3) 引入额外的视觉骨干网络或多模型pipeline，增加了计算复杂度和延迟，牺牲了模型简洁性。

核心思路：PEARL的核心思路是“对齐-然后-传播”。首先，通过Procrustes分析将视觉特征与文本特征进行几何对齐，然后在对齐后的特征上进行文本感知的拉普拉斯传播，以细化分割结果。这种设计旨在充分利用跨模态信息，同时保持模型的简洁性和效率。

技术框架：PEARL包含两个主要步骤：1) Procrustes对齐：在Transformer的最后一个自注意力模块中，使用Procrustes分析将键(key)向量旋转到查询(query)向量的子空间，实现视觉和文本特征的对齐。2) 文本感知的拉普拉斯传播：利用文本信息引导拉普拉斯传播，在图像的小网格上细化像素级别的logits。文本信息提供数据信任信号和邻居门控，图像梯度用于保持分割边界的清晰。

关键创新：PEARL的关键创新在于将Procrustes分析引入到免训练开放词汇语义分割任务中，通过几何对齐的方式融合文本和视觉信息。与现有方法相比，PEARL无需额外的训练数据或辅助骨干网络，实现了更简洁、高效的分割流程。

关键设计：Procrustes对齐使用稳定的极坐标迭代方法，确保对齐过程的稳定性。文本感知的拉普拉斯传播使用置信度加权的图求解，文本信息作为数据信任信号，图像梯度用于保持边界。模型只使用固定常数，并采用小的每头投影和几个共轭梯度步骤，以最小化延迟。

🖼️ 关键图片

📊 实验亮点

PEARL在免训练开放词汇语义分割任务上取得了显著的性能提升，在标准基准测试中达到了最先进水平。在没有额外数据或辅助骨干网络的情况下，PEARL在有背景和无背景两种协议下均优于现有方法，证明了其有效性和泛化能力。

🎯 应用场景

PEARL可应用于机器人视觉、自动驾驶、图像编辑等领域。其免训练特性使其能够快速适应新的物体类别和场景，降低了部署成本和维护难度。未来，该方法有望在资源受限的环境中实现高效的语义分割，并促进更智能的人机交互。

📄 摘要（原文）

Training-free open-vocabulary semantic segmentation (OVSS) promises rapid adaptation to new label sets without retraining. Yet, many methods rely on heavy post-processing or handle text and vision in isolation, leaving cross-modal geometry underutilized. Others introduce auxiliary vision backbones or multi-model pipelines, which increase complexity and latency while compromising design simplicity. We present PEARL, \textbf{\underline{P}}rocrust\textbf{\underline{e}}s \textbf{\underline{a}}lignment with text-awa\textbf{\underline{r}}e \textbf{\underline{L}}aplacian propagation, a compact two-step inference that follows an align-then-propagate principle. The Procrustes alignment step performs an orthogonal projection inside the last self-attention block, rotating keys toward the query subspace via a stable polar iteration. The text-aware Laplacian propagation then refines per-pixel logits on a small grid through a confidence-weighted, text-guided graph solve: text provides both a data-trust signal and neighbor gating, while image gradients preserve boundaries. In this work, our method is fully training-free, plug-and-play, and uses only fixed constants, adding minimal latency with a small per-head projection and a few conjugate-gradient steps. Our approach, PEARL, sets a new state-of-the-art in training-free OVSS without extra data or auxiliary backbones across standard benchmarks, achieving superior performance under both with-background and without-background protocols.

PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理