ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents
作者: Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit
分类: cs.AI, cs.CL, cs.CV, cs.IR
发布日期: 2024-09-23
备注: Accepted in MIDAS (The 8th Workshop on MIning DAta for financial applicationS) workshop of ECML PKDD 2023 conference
💡 一句话要点
提出ViBERTgrid BiLSTM-CRF模型,用于非结构化金融文档的多模态关键信息抽取。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 关键信息抽取 非结构化文档 ViBERTgrid BiLSTM-CRF
📋 核心要点
- 多模态关键信息抽取在半结构化文档上研究较多,但在非结构化文档上的应用仍面临挑战。
- 本文提出ViBERTgrid BiLSTM-CRF模型,利用BiLSTM-CRF层增强ViBERTgrid在非结构化文档上的序列标注能力。
- 实验表明,该模型在非结构化金融文档的命名实体识别上取得了显著提升,并保持了在半结构化文档上的性能。
📝 摘要(中文)
本文研究了多模态关键信息抽取(KIE)模型在非结构化文档上的应用,这是一个新兴的研究领域。本文提出了一种方法,通过结合BiLSTM-CRF层,将多模态Transformer模型ViBERTgrid(先前已在半结构化文档上进行探索)适配于非结构化金融文档。所提出的ViBERTgrid BiLSTM-CRF模型在金融领域非结构化文档的命名实体识别方面表现出显著的性能提升(高达2个百分点),同时保持了其在半结构化文档上的KIE性能。此外,我们公开发布了SROIE数据集的token级别标注,为多模态序列标注模型的使用铺平了道路。
🔬 方法详解
问题定义:本文旨在解决非结构化金融文档中的关键信息抽取(KIE)问题。现有方法在半结构化文档上表现良好,但直接应用于非结构化文档时,由于文档布局复杂、信息密度低等特点,性能会显著下降。因此,如何有效地从非结构化文档中提取关键信息成为一个重要的研究问题。
核心思路:本文的核心思路是将预训练的多模态Transformer模型ViBERTgrid与BiLSTM-CRF层相结合。ViBERTgrid擅长捕捉文档的视觉和文本信息,而BiLSTM-CRF层则擅长序列标注任务,能够更好地利用上下文信息进行命名实体识别。通过结合两者的优势,可以提高模型在非结构化文档上的KIE性能。
技术框架:该模型主要包含三个模块:ViBERTgrid编码器、BiLSTM层和CRF层。首先,ViBERTgrid编码器对输入的文档图像和文本进行编码,生成融合视觉和文本信息的特征表示。然后,BiLSTM层利用这些特征表示进行序列建模,捕捉上下文信息。最后,CRF层根据BiLSTM的输出进行序列标注,预测每个token的标签。
关键创新:本文的关键创新在于将ViBERTgrid模型成功地应用于非结构化文档的KIE任务,并结合BiLSTM-CRF层进一步提升了性能。与直接使用ViBERTgrid或其他序列标注模型相比,本文提出的模型能够更好地处理非结构化文档的复杂性和多样性。
关键设计:ViBERTgrid采用预训练的视觉Transformer和文本Transformer,能够有效地提取文档的视觉和文本特征。BiLSTM层采用双向LSTM,能够捕捉token的上下文信息。CRF层采用Viterbi算法进行解码,能够保证输出序列的合法性。损失函数采用交叉熵损失函数和CRF损失函数的加权和,用于优化模型参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,本文提出的ViBERTgrid BiLSTM-CRF模型在非结构化金融文档的命名实体识别方面取得了显著的性能提升,最高提升了2个百分点。同时,该模型在半结构化文档上保持了原有的KIE性能。此外,本文还公开发布了SROIE数据集的token级别标注,为后续研究提供了便利。
🎯 应用场景
该研究成果可应用于金融领域的自动化文档处理,例如自动提取财务报表、合同、发票等文档中的关键信息,从而提高工作效率、降低人工成本。此外,该技术还可以扩展到其他非结构化文档的处理,例如医疗报告、法律文件等。
📄 摘要(原文)
Multimodal key information extraction (KIE) models have been studied extensively on semi-structured documents. However, their investigation on unstructured documents is an emerging research topic. The paper presents an approach to adapt a multimodal transformer (i.e., ViBERTgrid previously explored on semi-structured documents) for unstructured financial documents, by incorporating a BiLSTM-CRF layer. The proposed ViBERTgrid BiLSTM-CRF model demonstrates a significant improvement in performance (up to 2 percentage points) on named entity recognition from unstructured documents in financial domain, while maintaining its KIE performance on semi-structured documents. As an additional contribution, we publicly released token-level annotations for the SROIE dataset in order to pave the way for its use in multimodal sequence labeling models.