AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model

作者: Zeyu Zhang, Paul Groth, Iacer Calixto, Sebastian Schelter

分类: cs.CL, cs.AI, cs.DB

发布日期: 2024-09-06 (更新: 2024-09-09)

备注: 12 pages excluding references, 3 figures, and 5 tables

💡 一句话要点

AnyMatch：利用小型语言模型实现高效的零样本实体匹配

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 实体匹配 零样本学习 迁移学习 小型语言模型 数据选择 数据增强

📋 核心要点

现有实体匹配方法依赖大量标注数据，但在零样本场景下表现不佳，大型语言模型虽有潜力，但成本高昂。
AnyMatch提出一种基于小型语言模型的迁移学习方法，通过数据选择和增强策略，提升零样本实体匹配的性能。
实验表明，AnyMatch在保持竞争力的预测质量的同时，显著降低了参数规模和推理成本，更易于部署和扩展。

📝 摘要（中文）

实体匹配（EM）旨在确定两个记录是否指向同一个真实世界的实体，这在数据集成中至关重要，例如产品目录或地址数据库。许多EM方法的主要缺点是依赖于带标签的示例。因此，我们专注于具有挑战性的零样本实体匹配设置，其中没有可用于未见过的目标数据集的带标签示例。最近，大型语言模型（LLM）在零样本EM方面显示出可喜的结果，但其低吞吐量和高部署成本限制了其适用性和可扩展性。我们使用AnyMatch重新审视零样本EM问题，AnyMatch是一个在迁移学习设置中微调的小型语言模型。我们提出了几种新颖的数据选择技术来为我们的模型生成微调数据，例如，通过AutoML过滤器选择难以匹配的对，生成额外的属性级别示例，以及控制数据中的标签不平衡。我们对模型的预测质量和部署成本进行了广泛的评估，并与九个基准数据集上的十三个基线进行了比较。我们发现，AnyMatch虽然参数规模较小，但提供了具有竞争力的预测质量：它实现了总体第二高的F1分数，并且优于其他几种采用具有数千亿个参数的模型的方案。此外，我们的方法表现出主要的成本优势：AnyMatch的平均预测质量与最先进的方法MatchGPT（使用专有的万亿参数模型GPT-4）相差4.4％以内，但AnyMatch所需的参数减少了四个数量级，并且推理成本降低了3,899倍（以每1,000个token的美元计算）。

🔬 方法详解

问题定义：论文旨在解决零样本实体匹配问题，即在没有目标领域标注数据的情况下，判断两个记录是否指向同一实体。现有方法要么依赖大量标注数据，要么使用大型语言模型，前者泛化能力差，后者成本高昂。

核心思路：论文的核心思路是利用小型语言模型，通过迁移学习的方式，在少量合成数据上进行微调，使其具备良好的零样本泛化能力。通过精心设计的数据选择和增强策略，提高模型的训练效率和性能。

技术框架：AnyMatch的技术框架主要包括以下几个阶段：1) 数据生成：利用AutoML过滤器选择难匹配的样本，并生成属性级别的示例，同时控制标签不平衡。2) 模型微调：使用生成的数据对小型语言模型进行微调。3) 预测：使用微调后的模型进行零样本实体匹配。

关键创新：论文的关键创新在于数据选择和增强策略，包括：1) 基于AutoML的难例选择，关注模型容易出错的样本。2) 属性级别示例生成，增加数据的多样性。3) 标签不平衡控制，避免模型偏向多数类。

关键设计：论文使用的小型语言模型可以是预训练的Transformer模型，例如BERT或RoBERTa。损失函数可以使用交叉熵损失。数据增强方面，可以采用随机替换、插入、删除等方法。AutoML过滤器可以使用简单的分类器，例如逻辑回归或支持向量机。

🖼️ 关键图片

📊 实验亮点

AnyMatch在九个基准数据集上取得了具有竞争力的结果，F1分数仅次于最先进的方法MatchGPT。但AnyMatch的参数规模比MatchGPT小四个数量级，推理成本降低了3899倍。这表明AnyMatch在预测质量和部署成本之间取得了良好的平衡。

🎯 应用场景

AnyMatch可应用于各种数据集成场景，例如产品目录匹配、地址数据库整合、客户信息合并等。该方法降低了对标注数据的依赖，降低了部署成本，使得零样本实体匹配技术更易于应用到实际业务中，具有广泛的应用前景。

📄 摘要（原文）

Entity matching (EM) is the problem of determining whether two records refer to same real-world entity, which is crucial in data integration, e.g., for product catalogs or address databases. A major drawback of many EM approaches is their dependence on labelled examples. We thus focus on the challenging setting of zero-shot entity matching where no labelled examples are available for an unseen target dataset. Recently, large language models (LLMs) have shown promising results for zero-shot EM, but their low throughput and high deployment cost limit their applicability and scalability. We revisit the zero-shot EM problem with AnyMatch, a small language model fine-tuned in a transfer learning setup. We propose several novel data selection techniques to generate fine-tuning data for our model, e.g., by selecting difficult pairs to match via an AutoML filter, by generating additional attribute-level examples, and by controlling label imbalance in the data. We conduct an extensive evaluation of the prediction quality and deployment cost of our model, in a comparison to thirteen baselines on nine benchmark datasets. We find that AnyMatch provides competitive prediction quality despite its small parameter size: it achieves the second-highest F1 score overall, and outperforms several other approaches that employ models with hundreds of billions of parameters. Furthermore, our approach exhibits major cost benefits: the average prediction quality of AnyMatch is within 4.4% of the state-of-the-art method MatchGPT with the proprietary trillion-parameter model GPT-4, yet AnyMatch requires four orders of magnitude less parameters and incurs a 3,899 times lower inference cost (in dollars per 1,000 tokens).

AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理