Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

📄 arXiv: 2408.11237v1 📥 PDF

作者: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2024-08-20


💡 一句话要点

提出注意力头掩码(AHM)方法,用于多模态文档分类中的OOD检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态文档分类 分布外检测 注意力头掩码 Transformer OOD检测

📋 核心要点

  1. 现有OOD检测方法主要针对单模态数据,缺乏对多模态文档的有效支持,导致模型在实际应用中存在过高的置信度风险。
  2. 论文提出注意力头掩码(AHM)方法,通过掩盖Transformer模型中的部分注意力头,增强模型对OOD数据的识别能力。
  3. 实验结果表明,AHM方法在多模态文档OOD检测任务中,显著优于现有方法,假阳性率降低高达7.5%。

📝 摘要(中文)

在机器学习应用中,检测分布外(OOD)数据至关重要,它可以降低模型过度自信的风险,从而提高已部署系统的可靠性和安全性。现有的大多数OOD检测方法主要针对单模态输入,如图像或文本。在多模态文档的背景下,对这些方法(主要为计算机视觉任务开发)的性能研究明显不足。我们提出了一种名为注意力头掩码(AHM)的新方法,用于文档分类系统中的多模态OOD任务。实验结果表明,所提出的AHM方法优于所有最先进的方法,并且与现有解决方案相比,显著降低了高达7.5%的假阳性率(FPR)。该方法很好地推广到多模态数据(如文档),其中视觉和文本信息在同一Transformer架构下建模。为了解决高质量公开文档数据集的稀缺问题,并鼓励进一步研究文档的OOD检测,我们引入了一个新的文档AI数据集FinanceDocs。我们的代码和数据集是公开可用的。

🔬 方法详解

问题定义:论文旨在解决多模态文档分类任务中,模型对分布外(Out-of-Distribution, OOD)数据的检测问题。现有方法,尤其是那些主要为计算机视觉任务设计的OOD检测方法,在处理多模态文档时表现不佳,容易产生过高的置信度,导致误判。这在金融、法律等对准确性要求高的领域是不可接受的。

核心思路:论文的核心思路是通过在Transformer模型中引入注意力头掩码(Attention Head Masking, AHM)机制,迫使模型更多地关注那些能够区分OOD数据的特征。通过随机或有策略地屏蔽部分注意力头,模型被迫依赖于其他注意力头的信息,从而提高对OOD数据的敏感性。

技术框架:整体框架基于Transformer架构,用于同时处理文档中的文本和视觉信息。主要流程包括:1) 多模态文档输入;2) 通过Transformer编码器提取特征;3) 应用注意力头掩码(AHM);4) 使用修改后的特征进行分类;5) 计算OOD检测分数。

关键创新:最重要的创新点在于注意力头掩码(AHM)机制。与传统的OOD检测方法不同,AHM直接在模型内部进行干预,通过改变注意力头的组合方式,增强模型对OOD数据的辨别能力。这种方法更具通用性,可以应用于不同的Transformer模型和多模态数据。

关键设计:AHM的关键设计包括:1) 掩码策略:可以采用随机掩码或基于注意力权重的掩码;2) 掩码比例:控制需要屏蔽的注意力头的数量;3) OOD检测分数计算:基于模型输出的置信度或熵值来判断输入是否为OOD数据。损失函数方面,可以使用交叉熵损失进行分类任务的训练,并结合OOD检测损失来优化AHM策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的AHM方法在FinanceDocs数据集上显著优于现有OOD检测方法,假阳性率(FPR)降低高达7.5%。与基线方法相比,AHM在保持分类精度的同时,有效提高了OOD数据的检测能力,证明了其在多模态文档OOD检测任务中的优越性。

🎯 应用场景

该研究成果可广泛应用于金融、法律、医疗等领域的文档智能系统。通过提高模型对异常文档的识别能力,可以有效降低欺诈风险、提高合规性检查效率、辅助医生进行疾病诊断等。未来,该方法有望扩展到其他多模态数据类型,例如音视频分析,从而提升人工智能系统的安全性和可靠性。

📄 摘要(原文)

Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.