Focus-LIME: Surgical Interpretation of Long-Context Large Language Models via Proxy-Based Neighborhood Selection
作者: Junhao Liu, Haonan Yu, Zhenyu Yan, Xin Zhang
分类: cs.CL, cs.LG
发布日期: 2026-02-04
💡 一句话要点
Focus-LIME:通过代理模型邻域选择实现长文本LLM的可解释性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本理解 可解释性AI 局部解释方法 代理模型 特征归因
📋 核心要点
- 现有基于特征的解释方法在高维特征空间中存在归因稀释问题,难以提供对长文本LLM的可靠解释。
- Focus-LIME利用代理模型优化扰动邻域,缩小需要解释的上下文范围,从而实现更精确的特征归因。
- 实验结果表明,Focus-LIME能够有效提升长文本LLM解释的准确性和可操作性,为用户提供更可信的解释。
📝 摘要(中文)
随着大型语言模型(LLMs)扩展到处理海量上下文窗口,实现精细的特征级解释对于法律审计和代码调试等高风险任务至关重要。然而,现有的局部模型无关解释方法在这些场景中面临一个关键困境:基于特征的方法由于高特征维度而遭受归因稀释,因此无法提供忠实的解释。在本文中,我们提出了Focus-LIME,一个旨在恢复精细解释可操作性的由粗到精的框架。Focus-LIME利用代理模型来管理扰动邻域,允许目标模型仅在优化的上下文中执行细粒度的归因。在长文本基准上的实证评估表明,我们的方法使精细解释切实可行,并为用户提供忠实的解释。
🔬 方法详解
问题定义:现有的局部模型无关解释方法,如LIME,在解释长文本LLM时面临挑战。由于长文本具有高维特征空间,直接应用LIME会导致归因稀释,即重要的特征被弱化,不重要的特征被放大,从而产生不忠实的解释。这使得用户难以理解模型决策的关键因素,尤其是在法律审计和代码调试等高风险场景中。
核心思路:Focus-LIME的核心思路是通过代理模型来引导LIME的扰动过程,从而聚焦于与模型决策最相关的上下文区域。代理模型用于评估不同上下文区域的重要性,并据此调整扰动策略,使得LIME能够更有效地探索重要的特征空间,避免在不重要的区域浪费计算资源。
技术框架:Focus-LIME框架包含以下几个主要阶段:1) 代理模型训练:使用目标模型的输出作为标签,训练一个轻量级的代理模型,用于预测不同上下文区域的重要性。2) 邻域选择:利用代理模型对上下文进行评分,选择对模型决策影响最大的邻域作为LIME的扰动范围。3) 局部线性模型拟合:在选定的邻域内,使用LIME算法拟合一个局部线性模型,用于解释目标模型的决策。4) 特征归因:根据局部线性模型的系数,计算每个特征对模型决策的贡献度。
关键创新:Focus-LIME的关键创新在于引入了代理模型来指导LIME的扰动过程。与传统的LIME方法不同,Focus-LIME不是在整个特征空间中随机扰动,而是根据代理模型的预测结果,有选择地在重要的上下文区域进行扰动。这种方法能够有效地减少归因稀释,提高解释的准确性和可信度。
关键设计:代理模型可以使用各种轻量级的模型结构,如线性模型或小型神经网络。代理模型的训练数据由目标模型的输入和输出构成。邻域选择策略可以采用不同的方法,如选择代理模型预测得分最高的Top-K个上下文区域。LIME算法可以使用不同的距离度量和正则化方法,以提高局部线性模型的拟合效果。
🖼️ 关键图片
📊 实验亮点
论文在长文本基准测试中验证了Focus-LIME的有效性。实验结果表明,Focus-LIME能够显著提高解释的准确性和可信度,减少归因稀释现象。与传统的LIME方法相比,Focus-LIME能够更准确地识别对模型决策起关键作用的特征,为用户提供更可靠的解释。
🎯 应用场景
Focus-LIME可应用于各种需要解释长文本LLM决策的场景,例如:法律审计(解释合同条款对法律风险的影响)、代码调试(定位代码错误的原因)、金融风险评估(解释信用评分的依据)等。该方法能够帮助用户更好地理解LLM的决策过程,提高模型的可信度和透明度,从而促进LLM在更多领域的应用。
📄 摘要(原文)
As Large Language Models (LLMs) scale to handle massive context windows, achieving surgical feature-level interpretation is essential for high-stakes tasks like legal auditing and code debugging. However, existing local model-agnostic explanation methods face a critical dilemma in these scenarios: feature-based methods suffer from attribution dilution due to high feature dimensionality, thus failing to provide faithful explanations. In this paper, we propose Focus-LIME, a coarse-to-fine framework designed to restore the tractability of surgical interpretation. Focus-LIME utilizes a proxy model to curate the perturbation neighborhood, allowing the target model to perform fine-grained attribution exclusively within the optimized context. Empirical evaluations on long-context benchmarks demonstrate that our method makes surgical explanations practicable and provides faithful explanations to users.