Mechanistic interpretability of large language models with applications to the financial services industry

📄 arXiv: 2407.11215v2 📥 PDF

作者: Ashkan Golgoon, Khashayar Filom, Arjun Ravi Kannan

分类: cs.LG, cs.AI, cs.CE, cs.CL, math.NA

发布日期: 2024-07-15 (更新: 2024-10-16)

期刊: 5th ACM International Conference on AI in Finance (ICAIF 2024)

DOI: 10.1145/3677052.3698612


💡 一句话要点

利用机制可解释性分析大型语言模型在金融服务中的应用,聚焦公平贷款合规性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机制可解释性 大型语言模型 金融服务 公平贷款 合规性监控 注意力机制 GPT-2

📋 核心要点

  1. 大型语言模型在金融领域的应用受限于其决策过程的不透明性,公平性和可靠性难以保证。
  2. 该论文采用机制可解释性方法,逆向工程Transformer模型,以理解其内部运作机制。
  3. 通过分析GPT-2 Small在公平贷款合规性任务中的注意力模式,定位了关键的注意力头。

📝 摘要(中文)

大型语言模型(LLM),如GPTs,在广泛的应用中展现出卓越的能力。然而,由于其内在的复杂性,这些模型在解释其内部决策过程方面提出了巨大的挑战。这种缺乏透明度给金融机构采用它们带来了关键挑战,因为金融机构非常重视关于偏见、公平性和可靠性的关注和责任。机制可解释性旨在逆向工程复杂的AI模型,如transformers。本文率先使用机制可解释性来阐明大型语言模型在金融服务应用中的内部工作原理。我们提供了几个例子,说明如何为合规性监控目的设计算法任务。特别是,我们研究了GPT-2 Small在被提示识别潜在的违反公平贷款法律的行为时的注意力模式。使用直接logit归因,我们研究了每一层及其相应的注意力头对残差流中logit差异的贡献。最后,我们设计了干净的和被破坏的提示,并使用激活修补作为一种因果干预方法,以进一步定位我们的任务完成组件。我们观察到(正向)头$10.2$(头$2$,层$10$),$10.7$和$11.3$,以及(负向)头$9.6$和$10.6$在任务完成中起着重要作用。

🔬 方法详解

问题定义:该论文旨在解决大型语言模型在金融服务领域应用时,由于其内部决策过程不透明而导致的公平性、可靠性和合规性问题。现有方法难以解释模型的决策依据,使得金融机构难以信任和部署这些模型。特别是在公平贷款等敏感领域,模型可能存在偏见,导致不公平的结果。

核心思路:论文的核心思路是利用机制可解释性技术,对大型语言模型进行逆向工程,从而理解模型的内部运作机制。通过分析模型在特定任务中的激活、注意力模式和logit贡献,可以定位到模型中负责特定功能的组件,并理解它们如何影响模型的最终决策。

技术框架:该研究主要针对GPT-2 Small模型,并使用以下技术:1) 直接 Logit 归因:用于研究每一层及其对应的注意力头对残差流中 Logit 差异的贡献。2) 激活修补 (Activation Patching):作为一种因果干预方法,用于定位任务完成组件。通过设计干净和被破坏的提示,观察激活修补对模型输出的影响,从而确定哪些组件对任务完成至关重要。

关键创新:该论文的关键创新在于将机制可解释性方法应用于金融领域的合规性问题,特别是公平贷款的识别。通过这种方法,可以深入了解模型如何处理与公平贷款相关的信息,并识别可能导致偏见的内部机制。这是首次将此类技术应用于金融领域,为解决LLM在金融应用中的透明度问题提供了新的思路。

关键设计:论文的关键设计包括:1) 设计针对公平贷款合规性任务的提示,包括干净的提示和被破坏的提示。2) 使用直接 Logit 归因来量化不同层和注意力头对模型输出的影响。3) 使用激活修补来验证关键组件的因果关系。4) 关注 GPT-2 Small 模型的特定层和注意力头,例如 10.2, 10.7, 11.3, 9.6 和 10.6,并分析它们在任务完成中的作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过对GPT-2 Small模型的分析,发现特定的注意力头(如10.2, 10.7, 11.3, 9.6和10.6)在公平贷款合规性任务中起着重要作用。这些注意力头对模型输出的logit差异有显著贡献,表明它们参与了对贷款申请的评估和决策过程。激活修补实验进一步验证了这些注意力头的因果关系。

🎯 应用场景

该研究成果可应用于金融服务领域的合规性监控,例如自动检测潜在的违反公平贷款法律的行为。通过理解模型内部的决策过程,可以提高模型的透明度和可信度,从而促进大型语言模型在金融领域的更广泛应用。此外,该方法还可以用于识别和纠正模型中的偏见,确保模型的公平性和公正性。

📄 摘要(原文)

Large Language Models such as GPTs (Generative Pre-trained Transformers) exhibit remarkable capabilities across a broad spectrum of applications. Nevertheless, due to their intrinsic complexity, these models present substantial challenges in interpreting their internal decision-making processes. This lack of transparency poses critical challenges when it comes to their adaptation by financial institutions, where concerns and accountability regarding bias, fairness, and reliability are of paramount importance. Mechanistic interpretability aims at reverse engineering complex AI models such as transformers. In this paper, we are pioneering the use of mechanistic interpretability to shed some light on the inner workings of large language models for use in financial services applications. We offer several examples of how algorithmic tasks can be designed for compliance monitoring purposes. In particular, we investigate GPT-2 Small's attention pattern when prompted to identify potential violation of Fair Lending laws. Using direct logit attribution, we study the contributions of each layer and its corresponding attention heads to the logit difference in the residual stream. Finally, we design clean and corrupted prompts and use activation patching as a causal intervention method to localize our task completion components further. We observe that the (positive) heads $10.2$ (head $2$, layer $10$), $10.7$, and $11.3$, as well as the (negative) heads $9.6$ and $10.6$ play a significant role in the task completion.