SegCompass: Exploring Interpretable Alignment with Sparse Autoencoders for Enhanced Reasoning Segmentation

作者: Zhenyu Lu, Liupeng Li, Jinpeng Wang, Haoqian Kang, Yan Feng, Ke Chen, Yaowei Wang

分类: cs.CV, cs.LG, cs.MM, eess.IV

发布日期: 2026-05-21

备注: Accepted by CVPR 2026. 15 pages, 9 figures, 6 tables

🔗 代码/项目: GITHUB

💡 一句话要点

SegCompass：利用稀疏自编码器实现可解释对齐，提升推理分割性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推理分割 可解释性 稀疏自编码器 思维链 视觉语言模型

📋 核心要点

现有推理分割方法缺乏透明性，要么是不可解释的黑盒，要么是缺乏约束的后处理，难以有效连接推理与视觉感知。
SegCompass利用稀疏自编码器（SAE）构建显式、可解释且可微的对齐路径，将思维链和视觉信息映射到共享的稀疏概念空间。
实验表明，SegCompass在多个基准测试中达到或超过了SOTA性能，并且学习到的稀疏概念质量与分割准确率高度相关。

📝 摘要（中文）

大型语言模型具备强大的组合推理能力，但现有的推理分割流程难以将这种推理与视觉感知透明地连接起来。现有的方法，如潜在查询对齐，是端到端的，但却是不可解释的“黑盒”。相反，文本定位读出仅仅是可读的，而不是真正可解释的，通常作为一个无约束的后处理步骤。为了弥合这种可解释性差距，我们提出了SegCompass，一个端到端模型，它利用稀疏自编码器（SAE）来构建一个显式的、可解释的、可微的对齐路径。给定一个图像-指令对，SegCompass首先生成一个思维链（CoT）轨迹。该方法的核心是一个SAE，它将CoT和视觉tokens映射到一个共享的、高维的稀疏概念空间。一个查询码本从这个空间中选择显著的概念，然后通过一个slot mapper将这些概念在空间上定位到一个多slot热图中，该热图指导最终的mask解码器。整个模型是联合训练的，将推理路径的强化学习与标准分割监督相结合。这种SAE驱动的接口提供了一个“白盒”连接，它比潜在查询更可追踪，比文本读出更连贯。在五个具有挑战性的基准测试中进行的大量实验表明，SegCompass匹配或超过了最先进的性能。至关重要的是，我们的视觉和定量分析表明，学习到的稀疏概念的质量与最终mask的准确性之间存在很强的相关性，这证实了SegCompass通过其增强的和可检查的对齐实现了卓越的结果。

🔬 方法详解

问题定义：现有推理分割流程难以将大型语言模型的推理能力与视觉感知有效结合。现有方法要么是端到端但不可解释的“黑盒”，如latent query alignment，要么是可读但缺乏约束的后处理，如textual localization readout。这些方法缺乏可解释性，难以追踪推理过程，限制了模型的可信度和可控性。

核心思路：SegCompass的核心在于利用稀疏自编码器（SAE）构建一个可解释的对齐路径。SAE将视觉信息和思维链（Chain-of-Thought, CoT）推理过程映射到一个共享的、高维的稀疏概念空间。通过稀疏性约束，SAE能够提取出更具代表性和可解释性的概念。这种设计旨在建立一个“白盒”连接，使得推理过程更加透明和可追踪。

技术框架：SegCompass的整体架构包含以下几个主要模块：1) CoT生成器：生成给定图像-指令对的思维链推理过程。2) 稀疏自编码器（SAE）：将CoT和视觉tokens映射到共享的稀疏概念空间。3) 查询码本：从稀疏概念空间中选择显著的概念。4) Slot Mapper：将选定的概念在空间上定位到多slot热图中。5) Mask解码器：根据多slot热图生成最终的分割mask。整个模型采用端到端的方式进行训练。

关键创新：SegCompass的关键创新在于使用SAE来构建可解释的对齐路径。与传统的黑盒方法相比，SAE能够提取出更具代表性和可解释性的概念，使得推理过程更加透明和可追踪。此外，SegCompass将推理路径的强化学习与标准分割监督相结合，实现了端到端的联合训练。

关键设计：SAE的稀疏性约束是一个关键设计。通过L1正则化或其他稀疏性约束方法，可以鼓励SAE学习到更稀疏的表示，从而提取出更具代表性的概念。查询码本的设计也至关重要，它需要能够有效地从稀疏概念空间中选择出与分割任务相关的概念。此外，损失函数的设计需要平衡推理路径的强化学习和分割任务的监督学习。

🖼️ 关键图片

📊 实验亮点

SegCompass在五个具有挑战性的基准测试中表现出色，匹配或超过了最先进的性能。视觉和定量分析表明，学习到的稀疏概念的质量与最终mask的准确性之间存在很强的相关性，验证了SegCompass通过增强和可检查的对齐实现了卓越的结果。代码已开源。

🎯 应用场景

SegCompass具有广泛的应用前景，例如在自动驾驶领域，可以用于理解驾驶场景中的复杂指令并进行分割，提高驾驶安全性。在医疗影像分析领域，可以用于解释诊断结果，辅助医生进行决策。此外，该方法还可以应用于机器人导航、智能家居等领域，提升系统的可解释性和可靠性。

📄 摘要（原文）

While large language models provide strong compositional reasoning, existing reasoning segmentation pipelines fail to transparently connect this reasoning to visual perception. Current methods, such as latent query alignment, are end-to-end yet opaque "black boxes". Conversely, textual localization readout is merely readable, not truly interpretable, often functioning as an unconstrained post-hoc step. To bridge this interpretability gap, we propose SegCompass, an end-to-end model that leverages a Sparse Autoencoder (SAE) to forge an explicit, interpretable, and differentiable alignment pathway. Given an image-instruction pair, SegCompass first generates a chain-of-thought (CoT) trace. The core of our method is an SAE that maps both the CoT and visual tokens into a shared, high-dimensional sparse concept space. A query codebook selects salient concepts from this space, which are then spatially grounded by a slot mapper into a multi-slot heatmap that guides the final mask decoder. The entire model is trained jointly, unifying reinforcement learning for the reasoning path with standard segmentation supervision. This SAE-driven interface provides a "white-box" connection that is significantly more traceable than latent queries and more coherent than textual readouts. Extensive experiments on five challenging benchmarks demonstrate that SegCompass matches or surpasses state-of-the-art performance. Crucially, our visual and quantitative analyses show a strong correlation between the quality of the learned sparse concepts and final mask accuracy, confirming that SegCompass achieves superior results through its enhanced and inspectable alignment. Code is available at https://github.com/ZhenyuLU-Heliodore/SegCompass.

SegCompass: Exploring Interpretable Alignment with Sparse Autoencoders for Enhanced Reasoning Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理