AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model

📄 arXiv: 2409.04073v2 📥 PDF

作者: Zeyu Zhang, Paul Groth, Iacer Calixto, Sebastian Schelter

分类: cs.CL, cs.AI, cs.DB

发布日期: 2024-09-06 (更新: 2024-09-09)

备注: 12 pages excluding references, 3 figures, and 5 tables


💡 一句话要点

AnyMatch:利用小型语言模型实现高效的零样本实体匹配

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实体匹配 零样本学习 迁移学习 小型语言模型 数据选择 数据增强

📋 核心要点

  1. 现有实体匹配方法依赖大量标注数据,但在零样本场景下表现不佳,大型语言模型虽有潜力,但成本高昂。
  2. AnyMatch提出一种基于小型语言模型的迁移学习方法,通过数据选择和增强策略,提升零样本实体匹配的性能。
  3. 实验表明,AnyMatch在保持竞争力的预测质量的同时,显著降低了参数规模和推理成本,更易于部署和扩展。

📝 摘要(中文)

实体匹配(EM)旨在确定两个记录是否指向同一个真实世界的实体,这在数据集成中至关重要,例如产品目录或地址数据库。许多EM方法的主要缺点是依赖于带标签的示例。因此,我们专注于具有挑战性的零样本实体匹配设置,其中没有可用于未见过的目标数据集的带标签示例。最近,大型语言模型(LLM)在零样本EM方面显示出可喜的结果,但其低吞吐量和高部署成本限制了其适用性和可扩展性。我们使用AnyMatch重新审视零样本EM问题,AnyMatch是一个在迁移学习设置中微调的小型语言模型。我们提出了几种新颖的数据选择技术来为我们的模型生成微调数据,例如,通过AutoML过滤器选择难以匹配的对,生成额外的属性级别示例,以及控制数据中的标签不平衡。我们对模型的预测质量和部署成本进行了广泛的评估,并与九个基准数据集上的十三个基线进行了比较。我们发现,AnyMatch虽然参数规模较小,但提供了具有竞争力的预测质量:它实现了总体第二高的F1分数,并且优于其他几种采用具有数千亿个参数的模型的方案。此外,我们的方法表现出主要的成本优势:AnyMatch的平均预测质量与最先进的方法MatchGPT(使用专有的万亿参数模型GPT-4)相差4.4%以内,但AnyMatch所需的参数减少了四个数量级,并且推理成本降低了3,899倍(以每1,000个token的美元计算)。

🔬 方法详解

问题定义:论文旨在解决零样本实体匹配问题,即在没有目标领域标注数据的情况下,判断两个记录是否指向同一实体。现有方法要么依赖大量标注数据,要么使用大型语言模型,前者泛化能力差,后者成本高昂。

核心思路:论文的核心思路是利用小型语言模型,通过迁移学习的方式,在少量合成数据上进行微调,使其具备良好的零样本泛化能力。通过精心设计的数据选择和增强策略,提高模型的训练效率和性能。

技术框架:AnyMatch的技术框架主要包括以下几个阶段:1) 数据生成:利用AutoML过滤器选择难匹配的样本,并生成属性级别的示例,同时控制标签不平衡。2) 模型微调:使用生成的数据对小型语言模型进行微调。3) 预测:使用微调后的模型进行零样本实体匹配。

关键创新:论文的关键创新在于数据选择和增强策略,包括:1) 基于AutoML的难例选择,关注模型容易出错的样本。2) 属性级别示例生成,增加数据的多样性。3) 标签不平衡控制,避免模型偏向多数类。

关键设计:论文使用的小型语言模型可以是预训练的Transformer模型,例如BERT或RoBERTa。损失函数可以使用交叉熵损失。数据增强方面,可以采用随机替换、插入、删除等方法。AutoML过滤器可以使用简单的分类器,例如逻辑回归或支持向量机。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnyMatch在九个基准数据集上取得了具有竞争力的结果,F1分数仅次于最先进的方法MatchGPT。但AnyMatch的参数规模比MatchGPT小四个数量级,推理成本降低了3899倍。这表明AnyMatch在预测质量和部署成本之间取得了良好的平衡。

🎯 应用场景

AnyMatch可应用于各种数据集成场景,例如产品目录匹配、地址数据库整合、客户信息合并等。该方法降低了对标注数据的依赖,降低了部署成本,使得零样本实体匹配技术更易于应用到实际业务中,具有广泛的应用前景。

📄 摘要(原文)

Entity matching (EM) is the problem of determining whether two records refer to same real-world entity, which is crucial in data integration, e.g., for product catalogs or address databases. A major drawback of many EM approaches is their dependence on labelled examples. We thus focus on the challenging setting of zero-shot entity matching where no labelled examples are available for an unseen target dataset. Recently, large language models (LLMs) have shown promising results for zero-shot EM, but their low throughput and high deployment cost limit their applicability and scalability. We revisit the zero-shot EM problem with AnyMatch, a small language model fine-tuned in a transfer learning setup. We propose several novel data selection techniques to generate fine-tuning data for our model, e.g., by selecting difficult pairs to match via an AutoML filter, by generating additional attribute-level examples, and by controlling label imbalance in the data. We conduct an extensive evaluation of the prediction quality and deployment cost of our model, in a comparison to thirteen baselines on nine benchmark datasets. We find that AnyMatch provides competitive prediction quality despite its small parameter size: it achieves the second-highest F1 score overall, and outperforms several other approaches that employ models with hundreds of billions of parameters. Furthermore, our approach exhibits major cost benefits: the average prediction quality of AnyMatch is within 4.4% of the state-of-the-art method MatchGPT with the proprietary trillion-parameter model GPT-4, yet AnyMatch requires four orders of magnitude less parameters and incurs a 3,899 times lower inference cost (in dollars per 1,000 tokens).