PhaseWin Search Framework Enable Efficient Object-Level Interpretation

📄 arXiv: 2511.10914v1 📥 PDF

作者: Zihan Gu, Ruoyu Chen, Junchi Zhang, Yue Hu, Hua Zhang, Xiaochun Cao

分类: cs.CV

发布日期: 2025-11-14


💡 一句话要点

PhaseWin:一种高效的对象级解释框架,实现近线性复杂度的忠实区域归因

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对象级解释 区域归因 可解释性AI 子模优化 计算效率

📋 核心要点

  1. 现有基于子模集合选择的归因方法虽然忠实,但计算效率低,难以在实际场景中部署。
  2. PhaseWin采用分阶段由粗到精的搜索策略,结合剪枝、窗口选择和动态监督,近似贪婪算法。
  3. 实验表明,PhaseWin在计算成本大幅降低的情况下,保持了较高的归因忠实度,并在多个任务上超越了现有方法。

📝 摘要(中文)

本文提出了一种名为PhaseWin的新型相位窗口搜索算法,旨在为对象级基础模型实现高效且忠实的区域归因。现有基于子模集合选择的方法虽然具有较高的忠实度,但其效率限制阻碍了在实际场景中的部署。PhaseWin通过分阶段的由粗到精搜索取代了传统的二次复杂度贪婪选择,结合自适应剪枝、窗口化细粒度选择和动态监督机制,在显著减少模型评估次数的同时,近似贪婪行为。理论分析表明,在温和的单调子模假设下,PhaseWin保留了近贪婪近似保证。实验结果表明,PhaseWin仅使用20%的计算预算即可达到超过95%的贪婪归因忠实度,并且在对象检测和视觉定位任务中,使用Grounding DINO和Florence-2模型时,始终优于其他归因基线。PhaseWin为可扩展、高忠实度的对象级多模态模型归因建立了一个新的技术水平。

🔬 方法详解

问题定义:论文旨在解决对象级基础模型的可解释性问题,特别是如何高效地进行区域归因。现有的基于子模集合选择的方法虽然能提供高忠实度的归因结果,但其计算复杂度高,通常是二次方的,这使得它们难以应用于大规模或实时的场景中。因此,如何在保证归因忠实度的前提下,显著降低计算成本,是本论文要解决的核心问题。

核心思路:PhaseWin的核心思路是通过一种分阶段的、由粗到精的搜索策略来近似贪婪选择的过程,从而降低计算复杂度。具体来说,它首先通过一个粗略的筛选阶段快速排除不重要的区域,然后在更小的区域窗口内进行细粒度的选择。这种分阶段的方法避免了对所有区域进行详尽的评估,从而显著减少了模型评估的次数。

技术框架:PhaseWin框架主要包含以下几个阶段:1) 自适应剪枝:通过初步评估快速排除不重要的区域,减少后续计算量。2) 窗口化细粒度选择:在剩余的区域窗口内,进行更精细的选择,以确定最具影响力的区域。3) 动态监督机制:在训练过程中,动态调整监督信号,以提高模型的归因能力。整个流程旨在以较低的计算成本,尽可能地逼近贪婪选择的结果。

关键创新:PhaseWin的关键创新在于其分阶段的搜索策略,它将传统的贪婪选择过程分解为多个阶段,每个阶段都专注于不同的任务。这种分解使得可以采用不同的优化策略,例如自适应剪枝和窗口化选择,从而在保证归因忠实度的前提下,显著降低计算复杂度。与传统的贪婪选择算法相比,PhaseWin的复杂度接近线性,使其能够应用于更大规模和更复杂的场景。

关键设计:PhaseWin的关键设计包括:1) 自适应剪枝阈值的设定:根据数据集的特性动态调整剪枝阈值,以平衡计算成本和归因忠实度。2) 窗口大小的选择:根据对象的尺寸和形状,选择合适的窗口大小,以确保能够捕捉到重要的区域。3) 动态监督信号的调整:根据模型的表现,动态调整监督信号的强度,以提高模型的归因能力。这些设计细节共同作用,使得PhaseWin能够在各种场景下实现高效且忠实的区域归因。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PhaseWin仅使用20%的计算预算即可达到超过95%的贪婪归因忠实度。在对象检测和视觉定位任务中,使用Grounding DINO和Florence-2模型时,PhaseWin始终优于其他归因基线。这些结果表明,PhaseWin在计算效率和归因忠实度之间取得了良好的平衡,为对象级模型的可解释性研究提供了一种新的解决方案。

🎯 应用场景

PhaseWin可应用于各种需要对象级可解释性的场景,例如自动驾驶、医疗影像分析、安全监控等。通过提供对模型决策过程的解释,可以提高用户对模型的信任度,并帮助发现模型潜在的偏差或错误。此外,PhaseWin还可以用于模型调试和优化,帮助研究人员更好地理解模型的行为,并改进模型的设计。

📄 摘要(原文)

Attribution is essential for interpreting object-level foundation models. Recent methods based on submodular subset selection have achieved high faithfulness, but their efficiency limitations hinder practical deployment in real-world scenarios. To address this, we propose PhaseWin, a novel phase-window search algorithm that enables faithful region attribution with near-linear complexity. PhaseWin replaces traditional quadratic-cost greedy selection with a phased coarse-to-fine search, combining adaptive pruning, windowed fine-grained selection, and dynamic supervision mechanisms to closely approximate greedy behavior while dramatically reducing model evaluations. Theoretically, PhaseWin retains near-greedy approximation guarantees under mild monotone submodular assumptions. Empirically, PhaseWin achieves over 95% of greedy attribution faithfulness using only 20% of the computational budget, and consistently outperforms other attribution baselines across object detection and visual grounding tasks with Grounding DINO and Florence-2. PhaseWin establishes a new state of the art in scalable, high-faithfulness attribution for object-level multimodal models.