EICopilot: Search and Explore Enterprise Information over Large-scale Knowledge Graphs with LLM-driven Agents

📄 arXiv: 2501.13746v1 📥 PDF

作者: Yuhui Yun, Huilong Ye, Xinru Li, Ruojia Li, Jingfeng Deng, Li Li, Haoyi Xiong

分类: cs.IR, cs.AI

发布日期: 2025-01-23


💡 一句话要点

提出EICopilot以提升企业信息在大规模知识图谱中的搜索与探索效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱 大型语言模型 企业信息检索 自动脚本生成 数据预处理 推理管道 查询掩蔽策略

📋 核心要点

  1. 现有方法依赖文本查询和手动探索,效率低下且耗时,难以满足企业信息快速检索的需求。
  2. EICopilot利用大型语言模型处理自然语言查询,自动生成Gremlin脚本,并通过数据预处理和推理管道提升查询效率。
  3. 实验结果显示EICopilot在速度和准确性上显著优于传统方法,尤其在语法错误率和执行正确率上取得了显著提升。

📝 摘要(中文)

本文介绍了EICopilot,这是一种基于代理的解决方案,旨在增强在广泛在线知识图谱中对企业注册数据的搜索和探索。传统方法需要基于文本的查询和手动子图探索,往往导致耗时的过程。EICopilot通过利用大型语言模型(LLMs)来解释自然语言查询,自动生成和执行Gremlin脚本,从而提供复杂企业关系的高效摘要。其独特之处在于数据预处理管道、结合思维链与上下文学习的推理管道,以及改进意图识别的查询掩蔽策略。实证评估表明,EICopilot在速度和准确性上优于基线方法,尤其是其全掩蔽变体将语法错误率降低至10.00%,执行正确率高达82.14%。

🔬 方法详解

问题定义:本文旨在解决传统企业信息搜索方法的低效问题,现有方法需依赖文本查询和手动探索,导致时间成本高且易出错。

核心思路:EICopilot通过大型语言模型(LLMs)解析自然语言查询,自动生成Gremlin脚本,旨在提高搜索效率和准确性。

技术框架:EICopilot的整体架构包括数据预处理管道、推理管道和查询掩蔽策略。数据预处理管道将代表性查询编译并注释到向量数据库中,推理管道结合思维链与上下文学习以增强Gremlin脚本生成。

关键创新:最重要的创新点在于结合上下文学习的推理管道和查询掩蔽策略,这些设计显著提升了意图识别的准确性和脚本生成的效率。

关键设计:在参数设置上,EICopilot采用了特定的损失函数和网络结构,以优化Gremlin脚本的生成过程,同时通过全掩蔽策略降低语法错误率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EICopilot在实验中表现出色,其全掩蔽变体将语法错误率降低至10.00%,执行正确率高达82.14%。与基线方法相比,EICopilot在速度和准确性上均有显著提升,展示了其在企业信息搜索中的优越性。

🎯 应用场景

EICopilot的潜在应用场景包括企业注册信息的快速检索、法律实体关系的分析以及资本结构的探索等。其高效的查询能力和准确的结果总结能够为企业决策提供有力支持,未来可能在金融、法律和商业智能等领域产生深远影响。

📄 摘要(原文)

The paper introduces EICopilot, an novel agent-based solution enhancing search and exploration of enterprise registration data within extensive online knowledge graphs like those detailing legal entities, registered capital, and major shareholders. Traditional methods necessitate text-based queries and manual subgraph explorations, often resulting in time-consuming processes. EICopilot, deployed as a chatbot via Baidu Enterprise Search, improves this landscape by utilizing Large Language Models (LLMs) to interpret natural language queries. This solution automatically generates and executes Gremlin scripts, providing efficient summaries of complex enterprise relationships. Distinct feature a data pre-processing pipeline that compiles and annotates representative queries into a vector database of examples for In-context learning (ICL), a comprehensive reasoning pipeline combining Chain-of-Thought with ICL to enhance Gremlin script generation for knowledge graph search and exploration, and a novel query masking strategy that improves intent recognition for heightened script accuracy. Empirical evaluations demonstrate the superior performance of EICopilot, including speed and accuracy, over baseline methods, with the \emph{Full Mask} variant achieving a syntax error rate reduction to as low as 10.00% and an execution correctness of up to 82.14%. These components collectively contribute to superior querying capabilities and summarization of intricate datasets, positioning EICopilot as a groundbreaking tool in the exploration and exploitation of large-scale knowledge graphs for enterprise information search.