Linking Cryptoasset Attribution Tags to Knowledge Graph Entities: An LLM-based Approach

作者: Régnier Avice, Bernhard Haslhofer, Zhidong Li, Jianlong Zhou

分类: cs.CR, cs.AI, cs.CL, cs.DB, cs.LG

发布日期: 2025-02-12

备注: Accepted at Financial Cryptography and Data Security 2025 Conference (FC2025)

💡 一句话要点

提出一种基于LLM的知识图谱实体链接方法，提升加密资产溯源标签的准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 加密资产溯源 知识图谱 大型语言模型 实体链接 反洗钱 金融安全 成本效益分析

📋 核心要点

现有的加密资产溯源标签存在不一致和不准确问题，可能导致错误的调查结论。
利用大型语言模型（LLM）将溯源标签与知识图谱中的概念进行链接，提高标签的准确性和可靠性。
实验表明，该方法在F1分数上优于基线方法高达37.4%，并且在成本效益方面具有显著优势。

📝 摘要（中文）

本文提出了一种基于大型语言模型（LLM）的计算方法，用于将加密资产溯源标签与明确定义的知识图谱概念相关联。该方法旨在解决溯源标签不一致或不准确的问题，这些问题可能误导调查，甚至导致错误的指控。研究者实现了一个端到端的流程，实验结果表明，该方法在三个公开可用的溯源标签数据集上的F1分数比基线方法提高了高达37.4%。通过整合概念过滤和阻塞程序，生成包含五个知识图谱实体的候选集，在无需标记数据的情况下实现了93%的召回率。此外，本地LLM模型可以达到90%的F1分数，与远程模型的94%相当。论文还分析了各种LLM和提示模板的成本-性能权衡，表明选择最具成本效益的配置可以将成本降低90%，而性能仅下降1%。该方法不仅提高了溯源标签的质量，而且为促进更可靠的取证证据提供了一个蓝图。

🔬 方法详解

问题定义：论文旨在解决加密资产溯源中，由于溯源标签的不一致性和不准确性，导致调查误导甚至错误指控的问题。现有的溯源方法依赖人工标注或简单的规则匹配，效率低且容易出错，难以保证溯源结果的可靠性。

核心思路：论文的核心思路是利用大型语言模型（LLM）的语义理解和推理能力，将溯源标签与知识图谱中明确定义的实体概念进行链接。通过将标签映射到知识图谱中的标准概念，可以消除歧义，提高溯源的准确性和一致性。

技术框架：该方法包含一个端到端的流程，主要包括以下几个阶段：1) 数据预处理：清洗和标准化溯源标签数据。2) 候选实体生成：利用概念过滤和阻塞程序，从知识图谱中生成与标签相关的候选实体集合。3) LLM链接：使用LLM对候选实体进行排序和选择，将标签链接到最相关的知识图谱实体。4) 后处理：对链接结果进行验证和修正。

关键创新：该方法最重要的创新点在于利用LLM进行溯源标签和知识图谱实体之间的链接。与传统的基于规则或统计的方法相比，LLM能够更好地理解标签的语义信息，并进行更准确的实体链接。此外，论文还提出了概念过滤和阻塞程序，有效地减少了候选实体的数量，提高了链接效率。

关键设计：在LLM链接阶段，论文尝试了不同的LLM模型（包括远程模型和本地模型）和提示模板，并分析了它们的成本-性能权衡。研究发现，选择合适的LLM模型和提示模板可以在保证性能的同时，显著降低成本。此外，概念过滤和阻塞程序的具体实现方式（例如，使用的过滤规则和阻塞策略）也是影响性能的关键因素。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在三个公开可用的溯源标签数据集上的F1分数比基线方法提高了高达37.4%。通过整合概念过滤和阻塞程序，在无需标记数据的情况下实现了93%的召回率。此外，本地LLM模型可以达到90%的F1分数，与远程模型的94%相当，同时显著降低了成本。选择最具成本效益的配置可以将成本降低90%，而性能仅下降1%。

🎯 应用场景

该研究成果可应用于加密资产反洗钱、欺诈检测和安全审计等领域。通过提高溯源标签的准确性和可靠性，可以帮助执法机构更好地追踪非法资金流动，防范金融犯罪。此外，该方法还可以用于构建更完善的加密资产知识图谱，为相关研究提供数据支持。

📄 摘要（原文）

Attribution tags form the foundation of modern cryptoasset forensics. However, inconsistent or incorrect tags can mislead investigations and even result in false accusations. To address this issue, we propose a novel computational method based on Large Language Models (LLMs) to link attribution tags with well-defined knowledge graph concepts. We implemented this method in an end-to-end pipeline and conducted experiments showing that our approach outperforms baseline methods by up to 37.4% in F1-score across three publicly available attribution tag datasets. By integrating concept filtering and blocking procedures, we generate candidate sets containing five knowledge graph entities, achieving a recall of 93% without the need for labeled data. Additionally, we demonstrate that local LLM models can achieve F1-scores of 90%, comparable to remote models which achieve 94%. We also analyze the cost-performance trade-offs of various LLMs and prompt templates, showing that selecting the most cost-effective configuration can reduce costs by 90%, with only a 1% decrease in performance. Our method not only enhances attribution tag quality but also serves as a blueprint for fostering more reliable forensic evidence.

Linking Cryptoasset Attribution Tags to Knowledge Graph Entities: An LLM-based Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理