Efficient and Transferable Agentic Knowledge Graph RAG via Reinforcement Learning
作者: Jinyeop Song, Song Wang, Julian Shun, Yada Zhu
分类: cs.CL, cs.AI
发布日期: 2025-09-30 (更新: 2026-01-27)
备注: Wrong numbers are reported for main results
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于强化学习的Agentic知识图谱RAG框架KG-R1,提升效率和可迁移性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 检索增强生成 强化学习 智能问答 可迁移学习
📋 核心要点
- 现有KG-RAG系统依赖多模块LLM,导致推理成本高昂,且模型行为与特定知识图谱绑定。
- KG-R1采用强化学习训练单个agent,使其能自主检索知识图谱信息并融入推理生成过程。
- 实验表明,KG-R1在KGQA任务上,使用更小模型实现了更高的准确率,并具备良好的跨图谱迁移能力。
📝 摘要(中文)
知识图谱检索增强生成(KG-RAG)将大型语言模型(LLM)与结构化、可验证的知识图谱(KG)相结合,以减少幻觉并暴露推理过程。然而,许多KG-RAG系统包含多个LLM模块(例如,规划、推理和响应),这增加了推理成本并将行为绑定到特定的目标KG。为了解决这个问题,我们引入了KG-R1,一个通过强化学习(RL)实现的agentic KG检索增强生成(KG-RAG)框架。KG-R1利用单个agent与KG作为其环境进行交互,学习在每个步骤中检索信息,并将检索到的信息整合到其推理和生成过程中。该过程通过端到端强化学习进行优化。在知识图谱问答(KGQA)基准测试的受控实验中,我们的方法展示了效率和可迁移性:使用Qwen-2.5-3B,KG-R1在生成更少token的情况下提高了答案准确性,优于使用更大规模或微调模型的多模块工作流方法。此外,KG-R1实现了即插即用:经过训练后,它可以在无需修改的情况下在新KG上保持较高的准确性。这些特性使KG-R1成为一个有前景的KG-RAG框架,适用于实际部署。我们的代码已公开发布在https://github.com/Jinyeop3110/KG-R1。
🔬 方法详解
问题定义:论文旨在解决现有知识图谱检索增强生成(KG-RAG)系统效率低和可迁移性差的问题。现有的KG-RAG系统通常采用多模块的LLM架构,例如规划、推理和响应模块,这导致推理成本增加,并且模型行为与特定的知识图谱绑定,难以迁移到新的知识图谱上。
核心思路:论文的核心思路是利用强化学习训练一个agent,使其能够自主地与知识图谱进行交互,并在每个步骤中检索相关信息,然后将检索到的信息融入到推理和生成过程中。通过端到端的强化学习优化,agent能够学习到最优的检索策略,从而提高效率和可迁移性。
技术框架:KG-R1框架包含一个agent和一个知识图谱环境。Agent接收问题作为输入,并与知识图谱环境进行交互。在每个时间步,agent根据当前状态选择一个动作(例如,选择一个节点或关系),然后知识图谱环境返回相应的状态和奖励。Agent通过强化学习算法(例如,策略梯度)学习最优策略,以最大化累积奖励。整个过程是端到端可训练的。
关键创新:KG-R1的关键创新在于使用单个agent来完成知识图谱的检索、推理和生成任务,而不是像传统KG-RAG系统那样使用多个独立的模块。这种单agent的设计可以减少推理成本,并提高模型的可迁移性。此外,通过强化学习,agent能够学习到最优的检索策略,从而提高检索效率和准确性。
关键设计:KG-R1使用策略梯度算法来训练agent。奖励函数的设计至关重要,它需要能够引导agent学习到正确的检索策略。论文中使用的奖励函数包括正确答案的奖励、检索路径长度的惩罚等。此外,agent的网络结构也需要精心设计,以能够有效地表示知识图谱的状态和动作空间。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KG-R1在知识图谱问答(KGQA)基准测试中取得了显著的性能提升。使用Qwen-2.5-3B模型,KG-R1在生成更少token的情况下,提高了答案的准确性,优于使用更大规模或微调模型的多模块工作流方法。此外,KG-R1在未经修改的情况下,在新知识图谱上保持了较高的准确性,展示了良好的可迁移性。
🎯 应用场景
KG-R1框架具有广泛的应用前景,可应用于智能问答、知识图谱补全、推荐系统等领域。其高效性和可迁移性使其特别适合于资源受限的场景,例如移动设备或边缘计算环境。未来,该框架可以进一步扩展到处理更复杂的知识图谱和问题,并与其他技术(例如,预训练语言模型)相结合,以实现更强大的性能。
📄 摘要(原文)
Knowledge-graph retrieval-augmented generation (KG-RAG) couples large language models (LLMs) with structured, verifiable knowledge graphs (KGs) to reduce hallucinations and expose reasoning traces. However, many KG-RAG systems compose multiple LLM modules (e.g planning, reasoning, and responding), inflating inference cost and binding behavior to a specific target KG. To address this, we introduce KG-R1, an agentic KG retrieval-augmented generation (KG-RAG) framework through reinforcement learning (RL). KG-R1 utilizes a single agent that interacts with KGs as its environment, learning to retrieve at each step and incorporating the retrieved information into its reasoning and generation. The process is optimized through end-to-end RL. In controlled experiments across Knowledge-Graph Question Answering (KGQA) benchmarks, our method demonstrates both efficiency and transferability: Using Qwen-2.5-3B, KG-R1 improves answer accuracy with fewer generation tokens than prior multi-module workflow methods that use larger foundation or fine-tuned models. Furthermore, KG-R1 enables plug and play: after training, it maintains strong accuracy on new KGs without modification. These properties make KG-R1 a promising KG-RAG framework for real-world deployment. Our code is publicly available at https://github.com/Jinyeop3110/KG-R1.