Towards Evaluating Large Language Models for Graph Query Generation

作者: Siraj Munir, Alessandro Aldini

分类: cs.ET, cs.CL

发布日期: 2024-11-13 (更新: 2024-11-18)

备注: Paper accepted and will be presented at CSCI2024 in December 2024, Later will be published at Springer LNCS

💡 一句话要点

评估大语言模型在图数据库查询生成中的能力，并发现Claude Sonnet 3.5表现最佳。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图数据库 查询生成 大语言模型 Cypher 检索增强生成

📋 核心要点

现有方法在图数据库查询生成方面存在不足，缺乏对LLM在Cypher查询生成能力的充分评估。
论文核心在于利用少样本学习提示和检索增强生成（RAG）结合思维链（CoT）推理，提升LLM生成Cypher查询的准确性。
实验结果表明，Claude Sonnet 3.5在图数据库查询生成任务中表现优异，为后续研究提供了参考基准。

📝 摘要（中文）

大语言模型（LLMs）正在彻底改变生成式人工智能（GenAI）的格局，基于LLM的创新解决方案层出不穷。然而，当应用于数据库技术，特别是图数据库和知识图谱（KGs）的查询生成时，LLM仍然面临重大挑战。虽然已经存在针对结构化查询语言（SQL）的LLM驱动查询生成的研究，但用于图数据库的类似系统仍然欠发达。本文提出了一项比较研究，旨在解决使用开放访问LLM生成Cypher查询（一种用于与图数据库交互的强大语言）的挑战。我们使用设计的少样本学习提示和由思维链（CoT）推理支持的检索增强生成（RAG），严格评估了几个LLM代理（OpenAI ChatGPT 4o、Claude Sonnet 3.5、Google Gemini Pro 1.5和本地部署的Llama 3.1 8B）。我们对查询生成准确性的实证分析表明，Claude Sonnet 3.5在这个特定领域优于其他模型。此外，我们强调了有希望的未来研究方向，以解决已发现的局限性并推进LLM驱动的图数据库查询生成。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLMs）在图数据库查询生成任务中的不足。现有方法主要集中在SQL查询生成，而针对图数据库（如使用Cypher语言）的查询生成研究相对较少，导致LLM在处理复杂图结构和关系时表现不佳。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，结合思维链（CoT）推理，提升LLM生成Cypher查询的准确性。通过RAG，LLM可以访问外部知识库，从而更好地理解图数据库的schema和数据。CoT推理则帮助LLM逐步分解复杂查询，生成更准确的Cypher代码。

技术框架：整体框架包括以下几个主要阶段：1) 接收自然语言查询；2) 使用RAG从图数据库schema和相关文档中检索相关信息；3) 利用CoT推理逐步生成Cypher查询；4) 执行生成的Cypher查询并返回结果。该框架使用了少样本学习提示，引导LLM更好地理解任务要求。

关键创新：论文的关键创新在于将RAG和CoT推理相结合，并应用于图数据库查询生成任务。与传统的直接生成方法相比，RAG和CoT的结合能够显著提高LLM生成复杂Cypher查询的准确性。此外，论文还对多个主流LLM进行了全面评估，为后续研究提供了有价值的参考。

关键设计：论文使用了特定的少样本学习提示，包含几个示例的自然语言查询和对应的Cypher查询。RAG模块使用了基于向量相似度的检索方法，从图数据库schema和文档中检索相关信息。CoT推理模块则通过逐步分解查询，生成中间步骤，最终生成完整的Cypher查询。具体参数设置和损失函数等技术细节在论文中未详细说明，属于未知信息。

📊 实验亮点

实验结果表明，Claude Sonnet 3.5在图数据库查询生成任务中表现最佳，优于ChatGPT 4o、Gemini Pro 1.5和Llama 3.1 8B。该研究为评估和改进LLM在图数据库查询生成方面的能力提供了有价值的参考，并为未来的研究方向提供了启示。

🎯 应用场景

该研究成果可应用于智能问答系统、知识图谱查询、数据分析等领域。通过提升LLM在图数据库查询生成方面的能力，可以更方便地从复杂的图结构数据中提取有价值的信息，为决策提供支持，并促进知识图谱的广泛应用。

📄 摘要（原文）

Large Language Models (LLMs) are revolutionizing the landscape of Generative Artificial Intelligence (GenAI), with innovative LLM-backed solutions emerging rapidly. However, when applied to database technologies, specifically query generation for graph databases and Knowledge Graphs (KGs), LLMs still face significant challenges. While research on LLM-driven query generation for Structured Query Language (SQL) exists, similar systems for graph databases remain underdeveloped. This paper presents a comparative study addressing the challenge of generating Cypher queries a powerful language for interacting with graph databases using open-access LLMs. We rigorously evaluate several LLM agents (OpenAI ChatGPT 4o, Claude Sonnet 3.5, Google Gemini Pro 1.5, and a locally deployed Llama 3.1 8B) using a designed few-shot learning prompt and Retrieval Augmented Generation (RAG) backed by Chain-of-Thoughts (CoT) reasoning. Our empirical analysis of query generation accuracy reveals that Claude Sonnet 3.5 outperforms its counterparts in this specific domain. Further, we highlight promising future research directions to address the identified limitations and advance LLM-driven query generation for graph databases.

Towards Evaluating Large Language Models for Graph Query Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理