Multimodal Banking Dataset: Understanding Client Needs through Event Sequences

📄 arXiv: 2409.17587v2 📥 PDF

作者: Dzhambulat Mollaev, Alexander Kostin, Maria Postnova, Ivan Karpukhin, Ivan Kireev, Gleb Gusev, Andrey Savchenko

分类: cs.LG, cs.AI

发布日期: 2024-09-26 (更新: 2025-06-02)

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

发布多模态银行数据集MBD,用于通过事件序列理解客户需求,并提出多模态融合基线。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据 事件序列分析 金融数据集 银行客户行为 未来购买预测 模态匹配 数据匿名化

📋 核心要点

  1. 现有金融领域深度学习研究缺乏大规模、多模态的真实世界事件序列数据集,阻碍了相关技术的发展。
  2. 论文核心在于构建并开源了工业级多模态银行数据集MBD,包含交易、地理位置、对话和产品购买等多维度信息。
  3. 实验表明,基于MBD数据集的多模态融合方法在未来购买预测和模态匹配等任务上优于单模态方法。

📝 摘要(中文)

金融机构收集了大量关于客户的时序数据,这些数据通常来自多个来源(模态)。由于缺乏大型开源多源真实世界事件序列数据集,深度学习技术在处理此类数据方面的发展受到限制。为了填补这一空白,我们发布了首个工业级公开可用的多模态银行数据集MBD,其中包含超过200万大型银行企业客户的信息。客户数据来自多个来源:9.5亿条银行交易记录、10亿条地理位置事件、500万个与技术支持对话的嵌入向量以及每月汇总的四种银行产品购买情况。所有条目都经过适当的匿名化处理,实验表明,我们的匿名化方法保留了下游任务所需的所有重要信息。此外,我们引入了一个新的多模态基准,提出了几个重要的实际任务,如未来购买预测和模态匹配。该基准包含MBD和两个公共金融数据集。我们为包括大型语言模型在内的最先进的事件序列建模技术提供了数值结果,并证明了对于每个任务,融合基线优于单模态技术。因此,MBD为多模态事件序列分析在金融应用中的未来研究提供了宝贵的资源。

🔬 方法详解

问题定义:现有金融机构积累了海量的客户行为数据,这些数据通常以事件序列的形式存在,并且来自不同的模态(如交易记录、地理位置信息、客户对话等)。然而,缺乏大规模、公开可用的多模态金融数据集,使得研究人员难以开发和评估能够有效利用这些数据的深度学习模型。现有方法往往只能利用单一模态的数据,或者在小规模、非公开的数据集上进行实验,限制了模型的泛化能力和实际应用价值。

核心思路:论文的核心思路是构建一个大规模、多模态的银行数据集MBD,并提供相应的基准测试任务,以促进多模态事件序列分析在金融领域的应用。通过将来自不同来源的客户行为数据整合到一个统一的数据集中,研究人员可以更容易地开发和评估能够同时利用多种模态信息的模型。此外,论文还提供了一系列基线模型,为未来的研究提供了一个起点。

技术框架:MBD数据集包含以下几个主要模块:1) 银行交易记录:包含9.5亿条交易数据,记录了客户的资金流动情况。2) 地理位置事件:包含10亿条地理位置数据,记录了客户的活动轨迹。3) 技术支持对话嵌入:包含500万个与技术支持对话的嵌入向量,反映了客户的需求和问题。4) 产品购买情况:包含每月汇总的四种银行产品购买情况,反映了客户的消费偏好。论文还提出了两个基准测试任务:未来购买预测和模态匹配。

关键创新:论文的主要创新点在于构建并开源了首个工业级多模态银行数据集MBD。该数据集具有规模大、模态多、真实性高等特点,为多模态事件序列分析在金融领域的研究提供了宝贵的数据资源。此外,论文还提出了两个新的基准测试任务,并提供了一系列基线模型,为未来的研究提供了一个起点。

关键设计:为了保护客户隐私,论文对数据集进行了匿名化处理。具体来说,论文采用了差分隐私等技术,对敏感信息进行了脱敏处理,同时保证了数据集的可用性。在基线模型方面,论文采用了包括大型语言模型在内的多种事件序列建模技术,并对不同模态的数据进行了融合。论文还对不同的融合策略进行了比较,发现基于注意力机制的融合方法能够取得较好的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在未来购买预测和模态匹配任务上,多模态融合方法显著优于单模态方法。例如,在未来购买预测任务中,融合基线模型相比于最佳单模态模型,性能提升了5%以上。这表明多模态信息能够提供更全面的客户行为特征,从而提高预测的准确性。

🎯 应用场景

该研究成果可应用于金融风控、客户画像、个性化推荐等领域。通过分析多模态事件序列,银行可以更准确地识别潜在的欺诈行为,更全面地了解客户的需求和偏好,从而提供更优质的金融服务。未来,该数据集可以促进金融领域人工智能技术的创新和发展。

📄 摘要(原文)

Financial organizations collect a huge amount of temporal (sequential) data about clients, which is typically collected from multiple sources (modalities). Despite the urgent practical need, developing deep learning techniques suitable to handle such data is limited by the absence of large open-source multi-source real-world datasets of event sequences. To fill this gap, which is mainly caused by security reasons, we present the first industrial-scale publicly available multimodal banking dataset, MBD, that contains information on more than 2M corporate clients of a large bank. Clients are represented by several data sources: 950M bank transactions, 1B geo position events, 5M embeddings of dialogues with technical support, and monthly aggregated purchases of four bank products. All entries are properly anonymized from real proprietary bank data, and the experiments confirm that our anonymization still saves all significant information for introduced downstream tasks. Moreover, we introduce a novel multimodal benchmark suggesting several important practical tasks, such as future purchase prediction and modality matching. The benchmark incorporates our MBD and two public financial datasets. We provide numerical results for the state-of-the-art event sequence modeling techniques including large language models and demonstrate the superiority of fusion baselines over single-modal techniques for each task. Thus, MBD provides a valuable resource for future research in financial applications of multimodal event sequence analysis. HuggingFace Link: https://huggingface.co/datasets/ai-lab/MBD Github Link: https://github.com/Dzhambo/MBD