Linking Cryptoasset Attribution Tags to Knowledge Graph Entities: An LLM-based Approach

📄 arXiv: 2502.10453v1 📥 PDF

作者: Régnier Avice, Bernhard Haslhofer, Zhidong Li, Jianlong Zhou

分类: cs.CR, cs.AI, cs.CL, cs.DB, cs.LG

发布日期: 2025-02-12

备注: Accepted at Financial Cryptography and Data Security 2025 Conference (FC2025)


💡 一句话要点

提出一种基于LLM的知识图谱实体链接方法,提升加密资产溯源标签的准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 加密资产溯源 知识图谱 大型语言模型 实体链接 反洗钱 金融安全 成本效益分析

📋 核心要点

  1. 现有的加密资产溯源标签存在不一致和不准确问题,可能导致错误的调查结论。
  2. 利用大型语言模型(LLM)将溯源标签与知识图谱中的概念进行链接,提高标签的准确性和可靠性。
  3. 实验表明,该方法在F1分数上优于基线方法高达37.4%,并且在成本效益方面具有显著优势。

📝 摘要(中文)

本文提出了一种基于大型语言模型(LLM)的计算方法,用于将加密资产溯源标签与明确定义的知识图谱概念相关联。该方法旨在解决溯源标签不一致或不准确的问题,这些问题可能误导调查,甚至导致错误的指控。研究者实现了一个端到端的流程,实验结果表明,该方法在三个公开可用的溯源标签数据集上的F1分数比基线方法提高了高达37.4%。通过整合概念过滤和阻塞程序,生成包含五个知识图谱实体的候选集,在无需标记数据的情况下实现了93%的召回率。此外,本地LLM模型可以达到90%的F1分数,与远程模型的94%相当。论文还分析了各种LLM和提示模板的成本-性能权衡,表明选择最具成本效益的配置可以将成本降低90%,而性能仅下降1%。该方法不仅提高了溯源标签的质量,而且为促进更可靠的取证证据提供了一个蓝图。

🔬 方法详解

问题定义:论文旨在解决加密资产溯源中,由于溯源标签的不一致性和不准确性,导致调查误导甚至错误指控的问题。现有的溯源方法依赖人工标注或简单的规则匹配,效率低且容易出错,难以保证溯源结果的可靠性。

核心思路:论文的核心思路是利用大型语言模型(LLM)的语义理解和推理能力,将溯源标签与知识图谱中明确定义的实体概念进行链接。通过将标签映射到知识图谱中的标准概念,可以消除歧义,提高溯源的准确性和一致性。

技术框架:该方法包含一个端到端的流程,主要包括以下几个阶段:1) 数据预处理:清洗和标准化溯源标签数据。2) 候选实体生成:利用概念过滤和阻塞程序,从知识图谱中生成与标签相关的候选实体集合。3) LLM链接:使用LLM对候选实体进行排序和选择,将标签链接到最相关的知识图谱实体。4) 后处理:对链接结果进行验证和修正。

关键创新:该方法最重要的创新点在于利用LLM进行溯源标签和知识图谱实体之间的链接。与传统的基于规则或统计的方法相比,LLM能够更好地理解标签的语义信息,并进行更准确的实体链接。此外,论文还提出了概念过滤和阻塞程序,有效地减少了候选实体的数量,提高了链接效率。

关键设计:在LLM链接阶段,论文尝试了不同的LLM模型(包括远程模型和本地模型)和提示模板,并分析了它们的成本-性能权衡。研究发现,选择合适的LLM模型和提示模板可以在保证性能的同时,显著降低成本。此外,概念过滤和阻塞程序的具体实现方式(例如,使用的过滤规则和阻塞策略)也是影响性能的关键因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在三个公开可用的溯源标签数据集上的F1分数比基线方法提高了高达37.4%。通过整合概念过滤和阻塞程序,在无需标记数据的情况下实现了93%的召回率。此外,本地LLM模型可以达到90%的F1分数,与远程模型的94%相当,同时显著降低了成本。选择最具成本效益的配置可以将成本降低90%,而性能仅下降1%。

🎯 应用场景

该研究成果可应用于加密资产反洗钱、欺诈检测和安全审计等领域。通过提高溯源标签的准确性和可靠性,可以帮助执法机构更好地追踪非法资金流动,防范金融犯罪。此外,该方法还可以用于构建更完善的加密资产知识图谱,为相关研究提供数据支持。

📄 摘要(原文)

Attribution tags form the foundation of modern cryptoasset forensics. However, inconsistent or incorrect tags can mislead investigations and even result in false accusations. To address this issue, we propose a novel computational method based on Large Language Models (LLMs) to link attribution tags with well-defined knowledge graph concepts. We implemented this method in an end-to-end pipeline and conducted experiments showing that our approach outperforms baseline methods by up to 37.4% in F1-score across three publicly available attribution tag datasets. By integrating concept filtering and blocking procedures, we generate candidate sets containing five knowledge graph entities, achieving a recall of 93% without the need for labeled data. Additionally, we demonstrate that local LLM models can achieve F1-scores of 90%, comparable to remote models which achieve 94%. We also analyze the cost-performance trade-offs of various LLMs and prompt templates, showing that selecting the most cost-effective configuration can reduce costs by 90%, with only a 1% decrease in performance. Our method not only enhances attribution tag quality but also serves as a blueprint for fostering more reliable forensic evidence.