PhaseWin Search Framework Enable Efficient Object-Level Interpretation

作者: Zihan Gu, Ruoyu Chen, Junchi Zhang, Yue Hu, Hua Zhang, Xiaochun Cao

分类: cs.CV

发布日期: 2025-11-14

💡 一句话要点

PhaseWin：一种高效的对象级解释框架，实现近线性复杂度的忠实区域归因

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对象级解释 区域归因 可解释性AI 子模优化 计算效率

📋 核心要点

现有基于子模集合选择的归因方法虽然忠实，但计算效率低，难以在实际场景中部署。
PhaseWin采用分阶段由粗到精的搜索策略，结合剪枝、窗口选择和动态监督，近似贪婪算法。
实验表明，PhaseWin在计算成本大幅降低的情况下，保持了较高的归因忠实度，并在多个任务上超越了现有方法。

📝 摘要（中文）

本文提出了一种名为PhaseWin的新型相位窗口搜索算法，旨在为对象级基础模型实现高效且忠实的区域归因。现有基于子模集合选择的方法虽然具有较高的忠实度，但其效率限制阻碍了在实际场景中的部署。PhaseWin通过分阶段的由粗到精搜索取代了传统的二次复杂度贪婪选择，结合自适应剪枝、窗口化细粒度选择和动态监督机制，在显著减少模型评估次数的同时，近似贪婪行为。理论分析表明，在温和的单调子模假设下，PhaseWin保留了近贪婪近似保证。实验结果表明，PhaseWin仅使用20%的计算预算即可达到超过95%的贪婪归因忠实度，并且在对象检测和视觉定位任务中，使用Grounding DINO和Florence-2模型时，始终优于其他归因基线。PhaseWin为可扩展、高忠实度的对象级多模态模型归因建立了一个新的技术水平。

🔬 方法详解

问题定义：论文旨在解决对象级基础模型的可解释性问题，特别是如何高效地进行区域归因。现有的基于子模集合选择的方法虽然能提供高忠实度的归因结果，但其计算复杂度高，通常是二次方的，这使得它们难以应用于大规模或实时的场景中。因此，如何在保证归因忠实度的前提下，显著降低计算成本，是本论文要解决的核心问题。

核心思路：PhaseWin的核心思路是通过一种分阶段的、由粗到精的搜索策略来近似贪婪选择的过程，从而降低计算复杂度。具体来说，它首先通过一个粗略的筛选阶段快速排除不重要的区域，然后在更小的区域窗口内进行细粒度的选择。这种分阶段的方法避免了对所有区域进行详尽的评估，从而显著减少了模型评估的次数。

技术框架：PhaseWin框架主要包含以下几个阶段：1) 自适应剪枝：通过初步评估快速排除不重要的区域，减少后续计算量。2) 窗口化细粒度选择：在剩余的区域窗口内，进行更精细的选择，以确定最具影响力的区域。3) 动态监督机制：在训练过程中，动态调整监督信号，以提高模型的归因能力。整个流程旨在以较低的计算成本，尽可能地逼近贪婪选择的结果。

关键创新：PhaseWin的关键创新在于其分阶段的搜索策略，它将传统的贪婪选择过程分解为多个阶段，每个阶段都专注于不同的任务。这种分解使得可以采用不同的优化策略，例如自适应剪枝和窗口化选择，从而在保证归因忠实度的前提下，显著降低计算复杂度。与传统的贪婪选择算法相比，PhaseWin的复杂度接近线性，使其能够应用于更大规模和更复杂的场景。

关键设计：PhaseWin的关键设计包括：1) 自适应剪枝阈值的设定：根据数据集的特性动态调整剪枝阈值，以平衡计算成本和归因忠实度。2) 窗口大小的选择：根据对象的尺寸和形状，选择合适的窗口大小，以确保能够捕捉到重要的区域。3) 动态监督信号的调整：根据模型的表现，动态调整监督信号的强度，以提高模型的归因能力。这些设计细节共同作用，使得PhaseWin能够在各种场景下实现高效且忠实的区域归因。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PhaseWin仅使用20%的计算预算即可达到超过95%的贪婪归因忠实度。在对象检测和视觉定位任务中，使用Grounding DINO和Florence-2模型时，PhaseWin始终优于其他归因基线。这些结果表明，PhaseWin在计算效率和归因忠实度之间取得了良好的平衡，为对象级模型的可解释性研究提供了一种新的解决方案。

🎯 应用场景

PhaseWin可应用于各种需要对象级可解释性的场景，例如自动驾驶、医疗影像分析、安全监控等。通过提供对模型决策过程的解释，可以提高用户对模型的信任度，并帮助发现模型潜在的偏差或错误。此外，PhaseWin还可以用于模型调试和优化，帮助研究人员更好地理解模型的行为，并改进模型的设计。

📄 摘要（原文）

Attribution is essential for interpreting object-level foundation models. Recent methods based on submodular subset selection have achieved high faithfulness, but their efficiency limitations hinder practical deployment in real-world scenarios. To address this, we propose PhaseWin, a novel phase-window search algorithm that enables faithful region attribution with near-linear complexity. PhaseWin replaces traditional quadratic-cost greedy selection with a phased coarse-to-fine search, combining adaptive pruning, windowed fine-grained selection, and dynamic supervision mechanisms to closely approximate greedy behavior while dramatically reducing model evaluations. Theoretically, PhaseWin retains near-greedy approximation guarantees under mild monotone submodular assumptions. Empirically, PhaseWin achieves over 95% of greedy attribution faithfulness using only 20% of the computational budget, and consistently outperforms other attribution baselines across object detection and visual grounding tasks with Grounding DINO and Florence-2. PhaseWin establishes a new state of the art in scalable, high-faithfulness attribution for object-level multimodal models.

PhaseWin Search Framework Enable Efficient Object-Level Interpretation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理