ClaimPKG: Enhancing Claim Verification via Pseudo-Subgraph Generation with Lightweight Specialized LLM

作者: Hoang Pham, Thanh-Do Nguyen, Khac-Hoai Nam Bui

分类: cs.CL, cs.AI, cs.DB

发布日期: 2025-05-28

备注: Accepted by ACL 2025 findings

期刊: ACL 2025

💡 一句话要点

ClaimPKG：利用轻量级专用LLM生成伪子图，增强声明验证能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 声明验证 知识图谱 大型语言模型 伪子图生成 子图检索

📋 核心要点

现有声明验证方法主要依赖非结构化文本，未能有效利用知识图谱（KG）的结构化语义信息。
ClaimPKG利用轻量级专用LLM生成伪子图，引导KG子图检索，再由通用LLM进行判决和理由生成。
实验表明，ClaimPKG在FactKG上超越现有方法9%-12%准确率，并具备对非结构化数据集的零样本泛化能力。

📝 摘要（中文）

本文提出ClaimPKG，一个端到端的框架，旨在通过将LLM推理与知识图谱（KG）中的结构化知识无缝集成，来增强声明验证能力。ClaimPKG的核心思想是利用一个轻量级的专用LLM将输入的声明表示为伪子图，从而引导一个专门的子图检索模块来识别相关的KG子图。然后，一个通用的LLM处理这些检索到的子图，以生成最终的判决和理由。在FactKG数据集上的大量实验表明，ClaimPKG实现了最先进的性能，在多个类别中比该研究领域中的强大基线提高了9%-12%的准确率。此外，ClaimPKG还展示了对非结构化数据集（如HoVer和FEVEROUS）的零样本泛化能力，有效地将来自KG的结构化知识与各种LLM骨干网络的LLM推理相结合。

🔬 方法详解

问题定义：现有声明验证方法主要依赖非结构化文本语料库，无法充分利用知识图谱（KG）提供的结构化、语义丰富的表示进行推理。即使是强大的LLM，在没有针对性调整的情况下，也难以处理多步骤模块化流程以及在KG上进行推理。因此，如何有效利用KG增强LLM的声明验证能力是一个关键问题。

核心思路：ClaimPKG的核心思路是利用一个轻量级的、专门训练的LLM，将输入的声明转化为伪子图表示。这种伪子图可以作为检索KG中相关子图的查询，从而将声明与KG中的结构化知识联系起来。通过这种方式，ClaimPKG将LLM的推理能力与KG的结构化知识相结合，从而提高声明验证的准确性和可靠性。

技术框架：ClaimPKG包含三个主要模块：1) 伪子图生成模块：使用轻量级专用LLM将输入声明编码为伪子图。2) 子图检索模块：根据伪子图从KG中检索相关的子图。3) 判决与理由生成模块：使用通用LLM处理检索到的子图，生成最终的判决和理由。整个流程是端到端的，可以自动学习和优化。

关键创新：ClaimPKG的关键创新在于使用轻量级专用LLM生成伪子图，从而有效地连接了LLM的推理能力和KG的结构化知识。与直接使用LLM在KG上进行推理的方法相比，ClaimPKG通过伪子图检索，降低了LLM的推理难度，提高了推理效率和准确性。此外，ClaimPKG的端到端框架也简化了模型的训练和部署。

关键设计：伪子图生成模块使用一个轻量级的Transformer模型，并使用特定任务的数据进行微调，使其能够有效地将声明编码为伪子图。子图检索模块使用基于嵌入相似度的检索方法，从KG中检索与伪子图最相关的子图。判决与理由生成模块使用一个预训练的LLM，并使用检索到的子图作为上下文，生成最终的判决和理由。具体的损失函数和训练策略未知。

🖼️ 关键图片

📊 实验亮点

ClaimPKG在FactKG数据集上取得了显著的性能提升，超越了现有最先进的方法9%-12%的准确率。此外，ClaimPKG还展示了对非结构化数据集HoVer和FEVEROUS的零样本泛化能力，表明其具有良好的鲁棒性和泛化性。实验结果证明了ClaimPKG在声明验证任务中的有效性和优越性。

🎯 应用场景

ClaimPKG具有广泛的应用前景，可用于新闻事实核查、科学研究验证、金融风险评估等领域。通过结合LLM的推理能力和KG的结构化知识，ClaimPKG可以提高信息验证的准确性和效率，帮助人们更好地识别虚假信息，做出更明智的决策。未来，该方法可以进一步扩展到其他需要知识推理的任务中。

📄 摘要（原文）

Integrating knowledge graphs (KGs) to enhance the reasoning capabilities of large language models (LLMs) is an emerging research challenge in claim verification. While KGs provide structured, semantically rich representations well-suited for reasoning, most existing verification methods rely on unstructured text corpora, limiting their ability to effectively leverage KGs. Additionally, despite possessing strong reasoning abilities, modern LLMs struggle with multi-step modular pipelines and reasoning over KGs without adaptation. To address these challenges, we propose ClaimPKG, an end-to-end framework that seamlessly integrates LLM reasoning with structured knowledge from KGs. Specifically, the main idea of ClaimPKG is to employ a lightweight, specialized LLM to represent the input claim as pseudo-subgraphs, guiding a dedicated subgraph retrieval module to identify relevant KG subgraphs. These retrieved subgraphs are then processed by a general-purpose LLM to produce the final verdict and justification. Extensive experiments on the FactKG dataset demonstrate that ClaimPKG achieves state-of-the-art performance, outperforming strong baselines in this research field by 9%-12% accuracy points across multiple categories. Furthermore, ClaimPKG exhibits zero-shot generalizability to unstructured datasets such as HoVer and FEVEROUS, effectively combining structured knowledge from KGs with LLM reasoning across various LLM backbones.

ClaimPKG: Enhancing Claim Verification via Pseudo-Subgraph Generation with Lightweight Specialized LLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理