ICX360: In-Context eXplainability 360 Toolkit

📄 arXiv: 2511.10879v1 📥 PDF

作者: Dennis Wei, Ronny Luss, Xiaomeng Hu, Lucas Monteiro Paes, Pin-Yu Chen, Karthikeyan Natesan Ramamurthy, Erik Miehling, Inge Vejsbjerg, Hendrik Strobelt

分类: cs.CL, cs.LG

发布日期: 2025-11-14

备注: 14 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

ICX360:用于大语言模型上下文可解释性的开源工具包

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释性 上下文学习 开源工具包 黑盒方法 白盒方法 自然语言处理

📋 核心要点

  1. 现有大语言模型缺乏可解释性,难以理解模型决策过程,限制了其在高风险场景中的应用。
  2. ICX360工具包旨在通过分析用户提供的上下文(prompt),解释大语言模型的输出,提升模型透明度。
  3. ICX360集成了多种解释方法,包括黑盒扰动和白盒梯度分析,并提供详细教程和用例。

📝 摘要(中文)

大型语言模型(LLMs)在日常生活中变得无处不在,并进入了更高风险的应用,例如总结会议记录和回答医生的问题。与早期的预测模型一样,至关重要的是,我们需要开发工具来解释LLM的输出,无论是摘要、列表、对问题的回答等等。考虑到这些需求,我们推出了In-Context Explainability 360(ICX360),这是一个开源的Python工具包,用于解释LLM,重点是用户提供的上下文(或通常的提示)输入到LLM。ICX360包含三个最新工具的实现,这些工具使用黑盒和白盒方法(分别通过扰动和梯度)来解释LLM。该工具包可在https://github.com/IBM/ICX360 获得,其中包含快速入门指南材料以及涵盖检索增强生成、自然语言生成和越狱等用例的详细教程。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)的可解释性问题,特别是针对用户提供的上下文(prompt)如何影响LLM的输出。现有的LLM缺乏透明度,难以理解其决策过程,这限制了它们在需要高度信任和可追溯性的应用中的使用。现有的可解释性方法可能无法充分利用上下文信息,或者难以应用于大型语言模型。

核心思路:ICX360的核心思路是提供一个全面的工具包,使用户能够从不同角度分析和解释LLM的输出。它通过集成多种解释方法,包括基于扰动的黑盒方法和基于梯度的白盒方法,来揭示上下文对LLM行为的影响。这种多角度分析有助于用户更深入地理解LLM的决策过程。

技术框架:ICX360工具包包含以下主要模块:1) 数据预处理模块,用于处理用户提供的上下文和LLM的输出;2) 解释方法模块,包含多种可解释性算法的实现,例如基于扰动的解释方法和基于梯度的解释方法;3) 可视化模块,用于将解释结果以易于理解的方式呈现给用户;4) 用例模块,提供了一系列实际应用示例,例如检索增强生成、自然语言生成和越狱。

关键创新:ICX360的关键创新在于其全面性和易用性。它集成多种解释方法,并提供详细的文档和教程,使得用户能够轻松地应用这些方法来解释LLM。此外,ICX360还关注用户提供的上下文,这对于理解LLM的输出至关重要。与现有方法相比,ICX360更易于使用,并且能够提供更全面的解释。

关键设计:ICX360的关键设计包括:1) 模块化的架构,使得用户可以轻松地添加新的解释方法;2) 灵活的API,允许用户自定义解释过程;3) 详细的文档和教程,帮助用户快速上手;4) 一系列实际应用示例,展示了ICX360的强大功能。具体的参数设置、损失函数和网络结构取决于所使用的具体解释方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ICX360工具包集成了三种最新的LLM解释工具,通过黑盒扰动和白盒梯度方法,实现了对LLM上下文可解释性的分析。该工具包提供了快速入门指南和详细教程,涵盖了检索增强生成、自然语言生成和越狱等实际用例,方便用户快速上手并应用于实际场景。

🎯 应用场景

ICX360可应用于各种需要解释LLM输出的场景,例如医疗诊断、金融风险评估、法律咨询等。通过提供可解释性,ICX360可以提高用户对LLM的信任度,并促进LLM在更多领域的应用。未来,ICX360可以进一步扩展到支持更多类型的LLM和解释方法,并提供更高级的可视化和交互功能。

📄 摘要(原文)

Large Language Models (LLMs) have become ubiquitous in everyday life and are entering higher-stakes applications ranging from summarizing meeting transcripts to answering doctors' questions. As was the case with earlier predictive models, it is crucial that we develop tools for explaining the output of LLMs, be it a summary, list, response to a question, etc. With these needs in mind, we introduce In-Context Explainability 360 (ICX360), an open-source Python toolkit for explaining LLMs with a focus on the user-provided context (or prompts in general) that are fed to the LLMs. ICX360 contains implementations for three recent tools that explain LLMs using both black-box and white-box methods (via perturbations and gradients respectively). The toolkit, available at https://github.com/IBM/ICX360, contains quick-start guidance materials as well as detailed tutorials covering use cases such as retrieval augmented generation, natural language generation, and jailbreaking.