GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models
作者: Jialin Chen, Houyu Zhang, Seongjun Yun, Alejandro Mottini, Rex Ying, Xiang Song, Vassilis N. Ioannidis, Zheng Li, Qingjun Cui
分类: cs.LG
发布日期: 2025-09-20
💡 一句话要点
提出GRIL,一种知识图谱检索增强的LLM学习框架,解决现有方法检索与推理分离及依赖人工标注问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 检索增强生成 大语言模型 多跳推理 端到端学习
📋 核心要点
- 现有图RAG方法检索与推理过程分离,检索器无法适应LLM的推理需求,且难以扩展到大规模图。
- GRIL通过注意力机制自适应地进行多跳实体导航,并过滤噪声,实现图检索器与LLM的端到端联合训练。
- 实验结果表明,GRIL在多个QA基准上取得了SOTA性能,验证了联合图-LLM优化在复杂推理任务中的有效性。
📝 摘要(中文)
检索增强生成(RAG)通过外部知识 grounding 显著缓解了大语言模型(LLM)的幻觉问题。最近,RAG 扩展到基于图的检索,利用结构化知识进行多跳推理,展现出良好的前景。然而,现有的图 RAG 通常将检索和推理过程解耦,这阻碍了检索器适应 LLM 的推理需求。当在大规模图上执行多跳扩展时,它们也难以扩展,或者严重依赖于带注释的 ground-truth 实体,这在开放域设置中通常不可用。为了解决这些挑战,我们提出了一种与 LLM 端到端训练的新型图检索器,该检索器具有基于注意力的增长和剪枝机制,自适应地导航多跳相关实体,同时过滤掉噪声。在提取的子图内,结构化知识和语义特征分别通过软 token 和口头化图进行编码,并将它们一起注入到 LLM 中,从而增强其推理能力并促进图检索器和 LLM 推理器的交互式联合训练。在三个 QA 基准上的实验结果表明,我们的方法始终如一地实现了最先进的性能,验证了联合图-LLM 优化对于复杂推理任务的优势。值得注意的是,我们的框架通过直接使用 LLM logits 作为隐式反馈来优化检索器,从而消除了对预定义 ground-truth 实体的需求,使其在开放域设置中特别有效。
🔬 方法详解
问题定义:现有图RAG方法存在检索与推理过程解耦的问题,导致检索器无法根据LLM的推理需求进行优化。此外,在大规模图上进行多跳推理时,计算复杂度高,难以扩展。同时,现有方法通常依赖于人工标注的ground-truth实体,这在开放域场景下难以获取。
核心思路:GRIL的核心思路是联合优化图检索器和LLM推理器,使检索器能够根据LLM的推理需求自适应地检索相关知识。通过端到端训练,利用LLM的logits作为隐式反馈信号,指导检索器的优化,从而避免了对人工标注实体的依赖。
技术框架:GRIL框架包含一个图检索器和一个LLM推理器。图检索器负责从知识图谱中检索相关子图,LLM推理器则利用检索到的子图进行推理。框架采用端到端训练方式,通过联合优化检索器和推理器,使两者能够协同工作。具体流程包括:输入问题,图检索器根据问题检索相关子图,子图信息以软token和verbalized graph的形式注入LLM,LLM进行推理并输出答案,根据LLM的输出logits优化图检索器。
关键创新:GRIL的关键创新在于提出了一个基于注意力的增长和剪枝机制的图检索器,该检索器能够自适应地导航多跳相关实体,并过滤掉噪声。此外,GRIL通过端到端训练,利用LLM的logits作为隐式反馈信号,避免了对人工标注实体的依赖,使其在开放域场景下更加有效。
关键设计:GRIL使用注意力机制来控制多跳扩展过程中节点的选择,并使用剪枝策略来过滤掉不相关的节点。损失函数的设计目标是最大化LLM生成正确答案的概率,同时最小化检索到的子图的复杂度。软token用于编码子图的结构信息,verbalized graph用于编码子图的语义信息。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
GRIL在三个QA基准测试中取得了SOTA性能,验证了联合图-LLM优化对于复杂推理任务的有效性。该框架无需预定义的ground-truth实体,直接使用LLM logits作为隐式反馈来优化检索器,使其在开放域设置中特别有效。具体的性能提升数据未在摘要中给出,属于未知信息。
🎯 应用场景
GRIL可应用于开放域问答、知识图谱补全、推荐系统等领域。通过增强LLM的知识获取和推理能力,可以提升这些应用在复杂场景下的性能和可靠性。该研究对于构建更智能、更可信赖的AI系统具有重要意义。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) has significantly mitigated the hallucinations of Large Language Models (LLMs) by grounding the generation with external knowledge. Recent extensions of RAG to graph-based retrieval offer a promising direction, leveraging the structural knowledge for multi-hop reasoning. However, existing graph RAG typically decouples retrieval and reasoning processes, which prevents the retriever from adapting to the reasoning needs of the LLM. They also struggle with scalability when performing multi-hop expansion over large-scale graphs, or depend heavily on annotated ground-truth entities, which are often unavailable in open-domain settings. To address these challenges, we propose a novel graph retriever trained end-to-end with LLM, which features an attention-based growing and pruning mechanism, adaptively navigating multi-hop relevant entities while filtering out noise. Within the extracted subgraph, structural knowledge and semantic features are encoded via soft tokens and the verbalized graph, respectively, which are infused into the LLM together, thereby enhancing its reasoning capability and facilitating interactive joint training of the graph retriever and the LLM reasoner. Experimental results across three QA benchmarks show that our approach consistently achieves state-of-the-art performance, validating the strength of joint graph-LLM optimization for complex reasoning tasks. Notably, our framework eliminates the need for predefined ground-truth entities by directly optimizing the retriever using LLM logits as implicit feedback, making it especially effective in open-domain settings.