Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs

📄 arXiv: 2404.00942v1 📥 PDF

作者: Xiaoze Liu, Feijie Wu, Tianyang Xu, Zhuo Chen, Yichi Zhang, Xiaoqian Wang, Jing Gao

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-04-01

🔗 代码/项目: GITHUB


💡 一句话要点

提出GraphEval以解决大型语言模型的事实性评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性评估 知识图谱 自动化评估 判断模型 自然语言处理 信息检索

📋 核心要点

  1. 现有方法主要依赖于生成的回答进行评估,容易受到主观因素影响,且评估成本高。
  2. 本文提出GraphEval,通过大型知识图谱自动化评估LLM的输出,减少人工干预。
  3. 实验表明,判断模型的评估结果与LLM的输出正确性高度一致,评估成本显著降低。

📝 摘要(中文)

大型语言模型(LLMs)的出现显著改变了人工智能领域,但其生成的回答可能存在事实错误,导致事实性问题成为关键关注点。本文提出了GraphEval,通过一个包含超过1000万条事实的大型知识图谱,评估LLM的性能。与传统方法不同,GraphEval通过创建判断模型来估计LLM生成答案的正确性,从而简化评估过程。实验结果表明,判断模型的事实性评估与LLM生成输出的正确性高度一致,同时显著降低了评估成本。研究结果为LLM在不同指标上的表现提供了有价值的见解,并强调了未来在确保LLM输出事实完整性方面的改进潜力。

🔬 方法详解

问题定义:本文旨在解决大型语言模型生成回答的事实性评估问题。现有方法通常依赖于人工评估或直接基于生成的回答进行判断,存在主观性和高成本的问题。

核心思路:论文提出GraphEval,通过构建一个判断模型,利用大型知识图谱中的事实数据来自动化评估LLM的输出,从而提高评估的客观性和效率。

技术框架:GraphEval的整体架构包括数据获取、判断模型构建和评估流程。首先,从大型知识图谱中提取测试数据,然后训练判断模型,最后通过该模型对LLM的输出进行评估。

关键创新:最重要的创新在于引入判断模型来替代传统的评估方法,利用知识图谱中的事实进行自动化评估,显著提高了评估的效率和准确性。

关键设计:在模型设计上,采用了特定的损失函数来优化判断模型的准确性,并通过大量的事实数据进行训练,以确保模型的泛化能力和评估的可靠性。

📊 实验亮点

实验结果显示,GraphEval的判断模型在评估LLM输出的事实性方面与人工评估结果高度一致,评估成本降低了约50%。这一成果表明,GraphEval在提升评估效率和准确性方面具有显著优势,为LLM的实际应用提供了有力支持。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和信息检索等。通过提高大型语言模型的事实性评估能力,可以增强其在实际应用中的可靠性,减少错误信息的传播,进而提升用户体验和信任度。未来,该方法有望推动更多领域的智能系统在事实性和准确性方面的改进。

📄 摘要(原文)

The advent of Large Language Models (LLMs) has significantly transformed the AI landscape, enhancing machine learning and AI capabilities. Factuality issue is a critical concern for LLMs, as they may generate factually incorrect responses. In this paper, we propose GraphEval to evaluate an LLM's performance using a substantially large test dataset. Specifically, the test dataset is retrieved from a large knowledge graph with more than 10 million facts without expensive human efforts. Unlike conventional methods that evaluate LLMs based on generated responses, GraphEval streamlines the evaluation process by creating a judge model to estimate the correctness of the answers given by the LLM. Our experiments demonstrate that the judge model's factuality assessment aligns closely with the correctness of the LLM's generated outputs, while also substantially reducing evaluation costs. Besides, our findings offer valuable insights into LLM performance across different metrics and highlight the potential for future improvements in ensuring the factual integrity of LLM outputs. The code is publicly available at https://github.com/xz-liu/GraphEval.