LLMs Prompted for Graphs: Hallucinations and Generative Capabilities
作者: Gurvan Richardeau, Samy Chali, Erwan Le Merrer, Camilla Penzo, Gilles Tredan
分类: cs.CL, cs.AI, cs.SI
发布日期: 2024-08-30 (更新: 2025-04-04)
备注: A preliminary version of this work appeared in the Complex Networks 2024 conference, under the title "LLMs hallucinate graphs too: a structural perspective"
💡 一句话要点
探究LLM在图谱任务中的幻觉与生成能力,揭示其涌现特性与局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 图谱生成 图谱复述 幻觉评估 Erdos-Renyi图
📋 核心要点
- 现有方法难以评估LLM在图谱相关任务中的幻觉问题,缺乏有效的评估指标。
- 本文提出一种评估指标,从幻觉角度评估LLM在图谱复述和生成任务中的错误。
- 实验表明,图谱幻觉幅度可表征LLM的优越性,且LLM在生成随机图方面表现出良好的涌现能力。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在图谱复述和生成方面的能力。首先,考察LLM能否复述文献中已知的图谱,例如Karate俱乐部图或图谱图集。其次,通过要求生成Erdos-Renyi随机图,来探究LLM的生成能力。与LLM可能记忆了训练集中包含的某些Erdos-Renyi图的可能性相反,第二项研究旨在研究LLM可能出现的涌现属性。对于这两项任务,我们提出了一种指标,用于评估LLM的错误,并从幻觉的角度进行分析(即,将不正确的信息作为事实返回)。最值得注意的是,我们发现图谱幻觉的幅度可以表征某些LLM的优越性。事实上,对于复述任务,我们观察到图谱幻觉与幻觉排行榜相关,该排行榜利用10,000倍以上的提示来获得其排名。对于生成任务,我们发现大多数LLM的结果出奇地好且可重复。我们认为这构成了对这种涌现能力进行更深入研究的起点,并为其改进提供了一个具有挑战性的基准。总而言之,LLM能力的这两个方面弥合了网络科学和机器学习社区之间的差距。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在处理图结构数据时的能力,具体包括两个方面:一是复述已知的图结构,例如Karate俱乐部图;二是生成随机图,例如Erdos-Renyi随机图。现有方法缺乏对LLM在图结构数据处理中产生的“幻觉”(即错误信息)的有效评估和量化手段。
核心思路:论文的核心思路是通过设计特定的prompt,引导LLM执行图结构的复述和生成任务,然后通过提出的评估指标来量化LLM产生的幻觉。通过分析幻觉的程度,可以评估LLM对图结构数据的理解和生成能力,并揭示其潜在的涌现特性。
技术框架:整体流程包括以下几个步骤: 1. 图谱复述任务:向LLM提供已知图谱的描述,要求其复述图的结构(例如,节点和边的信息)。 2. 图谱生成任务:要求LLM生成Erdos-Renyi随机图,并指定参数(例如,节点数量和连接概率)。 3. 幻觉评估:设计指标来量化LLM在复述和生成过程中产生的错误,例如,节点或边的错误数量。 4. 结果分析:分析不同LLM在两项任务中的表现,并探讨幻觉与模型能力之间的关系。
关键创新:论文的关键创新在于: 1. 提出了针对图结构数据的幻觉评估指标,能够量化LLM在处理图数据时产生的错误。 2. 通过实验发现,图谱幻觉的幅度可以表征LLM的优越性,这为评估LLM在特定领域的性能提供了一种新的视角。 3. 揭示了LLM在生成随机图方面表现出良好的涌现能力,表明LLM可能具备一定的图结构推理能力。
关键设计:论文的关键设计包括: 1. Prompt设计:针对复述和生成任务,设计了清晰明确的prompt,以引导LLM生成期望的输出。 2. 幻觉评估指标:设计了量化节点和边错误的指标,用于评估LLM的幻觉程度。 3. 实验设置:选择了多个LLM进行实验,并对比了它们在两项任务中的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在图谱复述任务中的幻觉程度与Hallucination Leaderboard上的排名相关,验证了所提出的幻觉评估指标的有效性。此外,实验还发现LLM在生成Erdos-Renyi随机图方面表现出良好的涌现能力,能够生成符合指定参数的图结构。
🎯 应用场景
该研究成果可应用于评估和改进LLM在知识图谱、社交网络分析、生物网络建模等领域的应用。通过量化LLM的幻觉程度,可以更好地理解其局限性,并开发更可靠的图结构数据处理模型。此外,该研究也为探索LLM的涌现能力提供了新的思路。
📄 摘要(原文)
Large Language Models (LLMs) are nowadays prompted for a wide variety of tasks. In this article, we investigate their ability in reciting and generating graphs. We first study the ability of LLMs to regurgitate well known graphs from the literature (e.g. Karate club or the graph atlas)4. Secondly, we question the generative capabilities of LLMs by asking for Erdos-Renyi random graphs. As opposed to the possibility that they could memorize some Erdos-Renyi graphs included in their scraped training set, this second investigation aims at studying a possible emergent property of LLMs. For both tasks, we propose a metric to assess their errors with the lens of hallucination (i.e. incorrect information returned as facts). We most notably find that the amplitude of graph hallucinations can characterize the superiority of some LLMs. Indeed, for the recitation task, we observe that graph hallucinations correlate with the Hallucination Leaderboard, a hallucination rank that leverages 10, 000 times more prompts to obtain its ranking. For the generation task, we find surprisingly good and reproducible results in most of LLMs. We believe this to constitute a starting point for more in-depth studies of this emergent capability and a challenging benchmark for their improvements. Altogether, these two aspects of LLMs capabilities bridge a gap between the network science and machine learning communities.