PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents

📄 arXiv: 2605.13481v1 📥 PDF

作者: Mikhail Menschikov, Matvey Iskornev, Alexander Kharitonov, Alina Bogdanova, Mikhail Belkin, Ekaterina Lisitsyna, Artyom Sosedka, Victoria Dochkina, Ruslan Kostoev, Ilia Perepechkin, Evgeny Burnaev

分类: cs.CL

发布日期: 2026-05-13


💡 一句话要点

PersonalAI 2.0:通过规划机制增强知识图谱遍历/检索,用于个性化LLM Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱 大型语言模型 检索增强生成 个性化AI 图遍历 多跳推理 智能问答

📋 核心要点

  1. 现有GraphRAG方法在动态信息搜索和多跳推理方面存在局限性,难以保证生成答案的事实正确性。
  2. PAI-2通过动态、多阶段的查询处理流程,实现自适应、迭代的信息搜索,并利用图遍历算法和搜索计划增强机制。
  3. 实验结果表明,PAI-2在多个基准测试中提高了生成答案的事实正确性,降低了幻觉率,并在MINE-1上取得了SOTA结果。

📝 摘要(中文)

本文介绍PersonalAI 2.0 (PAI-2),一种新型框架,旨在通过集成外部知识图谱(KG)来增强基于大型语言模型(LLM)的系统。该方法通过结合动态、多阶段的查询处理流程,解决了现有图检索增强生成(GraphRAG)方法的主要局限性。PAI-2设计的核心在于其执行自适应、迭代信息搜索的能力,该搜索由提取的实体、匹配的图顶点和生成的线索查询引导。在六个基准测试(Natural Questions, TriviaQA, HotpotQA, 2WikiMultihopQA, MuSiQue 和 DiaASQ)上进行的评估表明,与类似方法(LightRAG, RAPTOR 和 HippoRAG 2)相比,生成答案的事实正确性有所提高。通过LLM-as-a-Judge在四个基准测试中平均获得4%的增益,反映了其在降低幻觉率和提高精度方面的有效性。我们表明,与标准扁平检索器相比,使用图遍历算法(例如BeamSearch, WaterCircles)平均获得6%的优异结果,而启用搜索计划增强机制相比禁用机制,通过LLM-as-a-Judge在六个数据集上获得18%的提升。此外,消融研究表明,PAI-2在MINE-1基准测试中取得了SOTA结果,使用7-14B层级的LLM实现了89%的信息保留得分。总而言之,这些发现强调了PAI-2作为下一代个性化AI应用的基础模型的潜力,这些应用需要可扩展的、上下文感知的知识表示和推理能力。

🔬 方法详解

问题定义:论文旨在解决现有GraphRAG方法在处理复杂查询时,信息检索效率和答案准确性不足的问题。现有方法通常采用静态的图遍历策略,无法根据查询内容动态调整搜索路径,导致检索到的信息与问题关联性较弱,从而影响LLM生成答案的质量。此外,现有方法在多跳推理方面也存在局限性,难以处理需要跨多个知识节点进行推理的问题。

核心思路:PAI-2的核心思路是引入一个动态的、多阶段的查询处理流程,使系统能够根据已检索到的信息自适应地调整搜索策略。通过迭代地提取实体、匹配图顶点和生成线索查询,PAI-2能够更有效地探索知识图谱,并检索到与问题更相关的信息。此外,PAI-2还利用图遍历算法和搜索计划增强机制,进一步提升了信息检索的效率和准确性。

技术框架:PAI-2的整体架构包含以下主要模块:1) 查询解析模块:用于提取查询中的实体和意图。2) 图检索模块:用于根据提取的实体在知识图谱中进行检索,并返回相关的顶点和边。3) 线索查询生成模块:用于根据已检索到的信息生成新的查询,以引导后续的搜索。4) 图遍历模块:使用图遍历算法(如BeamSearch, WaterCircles)在知识图谱中进行多跳推理。5) 答案生成模块:使用LLM根据检索到的信息生成最终答案。整个流程是一个迭代的过程,直到满足一定的停止条件。

关键创新:PAI-2的关键创新在于其动态的、多阶段的查询处理流程和搜索计划增强机制。传统的GraphRAG方法通常采用静态的图遍历策略,而PAI-2能够根据已检索到的信息自适应地调整搜索策略,从而更有效地探索知识图谱。搜索计划增强机制则通过LLM对搜索路径进行优化,进一步提升了信息检索的效率和准确性。

关键设计:PAI-2的关键设计包括:1) 使用LLM作为线索查询生成器,以生成更具信息性的查询。2) 采用BeamSearch和WaterCircles等图遍历算法,以实现更高效的多跳推理。3) 引入搜索计划增强机制,通过LLM对搜索路径进行优化。4) 使用LLM-as-a-Judge评估生成答案的事实正确性,并将其作为训练目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PAI-2在六个基准测试中,通过LLM-as-a-Judge平均获得4%的增益,表明其能有效降低幻觉率并提高精度。使用图遍历算法相比标准扁平检索器平均获得6%的提升,启用搜索计划增强机制相比禁用机制获得18%的提升。在MINE-1基准测试中,PAI-2取得了SOTA结果,信息保留得分达到89%。

🎯 应用场景

PAI-2可应用于各种需要知识图谱支持的个性化AI应用,例如智能问答系统、虚拟助手、推荐系统等。其可扩展性和上下文感知能力使其能够处理复杂的查询,并提供更准确、更个性化的答案。未来,PAI-2有望成为下一代个性化AI应用的基础模型。

📄 摘要(原文)

We introduce PersonalAI 2.0 (PAI-2), a novel framework, designed to enhance large language model (LLM) based systems through integration of external knowledge graphs (KG). The proposed approach addresses key limitations of existing Graph Retrieval-Augmented Generation (GraphRAG) methods by incorporating a dynamic, multistage query processing pipeline. The central point of PAI-2 design is its ability to perform adaptive, iterative information search, guided by extracted entities, matched graph vertices and generated clue-queries. Conducted evaluation over six benchmarks (Natural Questions, TriviaQA, HotpotQA, 2WikiMultihopQA, MuSiQue and DiaASQ) demonstrates improvement in factual correctness of generating answers compared to analogues methods (LightRAG, RAPTOR, and HippoRAG 2). PAI-2 achieves 4% average gain by LLM-as-a-Judge across four benchmarks, reflecting its effectiveness in reducing hallucination rates and increasing precision. We show that use of graph traversal algorithms (e.g. BeamSearch, WaterCircles) gain superior results compared to standard flatten retriever on average 6%, while enabled search plan enhancement mechanism gain 18% boost compared to disabled one by LLM-as-a-Judge across six datasets. In addition, ablation study reveals that PAI-2 achieves the SOTA result on MINE-1 benchmark, achieving 89% information-retention score, using LLMs from 7-14B tiers. Collectively, these findings underscore the potential of PAI-2 to serve as a foundational model for next-generation personalized AI applications, requiring scalable, context-aware knowledge representation and reasoning capabilities.