PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

📄 arXiv: 2405.19740v2 📥 PDF

作者: Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-05-30 (更新: 2024-10-18)

备注: Accepted by NeurIPS '24 D&B Spotlight; 28 pages, 15 figures, 14 tables

🔗 代码/项目: GITHUB


💡 一句话要点

PertEval:通过知识不变扰动揭示大语言模型真实知识能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识评估 知识不变扰动 基准测试 响应一致性分析

📋 核心要点

  1. 现有专家设计的封闭式基准测试在评估大语言模型知识能力时存在局限性,测试场景有限且存在数据污染风险,导致评估结果不可靠。
  2. PertEval通过知识不变扰动,即在保留知识关键内容的同时改变不相关细节,动态生成测试样本,从而更真实地评估LLMs的知识能力。
  3. 实验结果表明,现有基准测试高估了LLMs的性能,PertEval能够揭示LLMs对虚假知识的不确定性以及潜在的死记硬背行为,并指导模型改进。

📝 摘要(中文)

本文提出了PertEval,一个用于深入探究大语言模型(LLMs)知识能力的工具包。PertEval利用知识不变扰动,通过类人的复述技巧从静态基准测试中动态生成测试样本,在改变不相关细节的同时,精心保留知识关键内容。该工具包还包含一套响应一致性分析方法,用于比较原始测试集和扰动测试集上的性能,从而精确评估LLMs的真实知识能力。使用PertEval重新评估了六个代表性的LLMs,结果表明LLMs在原始基准测试上的性能被显著高估,GPT-4的性能高估了25.8%。通过细致的响应模式分析,发现PertEval保留了LLMs对虚假知识的不确定性,并揭示了它们对正确选项的潜在死记硬背,从而导致性能高估。PertEval的详细响应一致性分析可以揭示现有LLMs在知识掌握方面的各种弱点,并指导改进。这些发现为推进更强大和真正有知识的LLMs提供了见解。代码已开源。

🔬 方法详解

问题定义:现有的大语言模型(LLMs)知识评估依赖于专家设计的封闭式基准测试,但这些基准测试存在两个主要问题:一是测试场景有限,难以全面评估模型的知识掌握程度;二是存在数据污染的风险,模型可能通过记忆训练数据而获得虚高的性能。因此,如何设计更可靠的基准测试,准确评估LLMs的真实知识能力是一个关键问题。

核心思路:PertEval的核心思路是通过引入“知识不变扰动”来动态生成新的测试样本。这种扰动模拟了人类在理解和复述知识时的行为,即在保持知识核心内容不变的前提下,改变表达方式和细节信息。通过比较模型在原始测试集和扰动测试集上的表现,可以更准确地评估模型是否真正理解了知识,还是仅仅记住了训练数据。

技术框架:PertEval工具包主要包含两个核心模块:一是知识不变扰动模块,用于从原始测试样本生成新的测试样本;二是响应一致性分析模块,用于比较模型在原始测试集和扰动测试集上的表现,并进行深入的分析。知识不变扰动模块利用类人的复述技巧,例如同义词替换、句子结构调整等,来生成新的测试样本。响应一致性分析模块则通过比较模型在不同测试样本上的回答,评估模型的知识掌握程度和泛化能力。

关键创新:PertEval最重要的技术创新点在于提出了“知识不变扰动”的概念,并将其应用于LLMs的知识评估。与传统的静态基准测试相比,PertEval能够动态生成大量的测试样本,从而更全面地评估模型的知识掌握程度。此外,PertEval还通过响应一致性分析,揭示了模型对虚假知识的不确定性和潜在的死记硬背行为,为模型改进提供了重要的线索。

关键设计:PertEval的关键设计在于如何实现知识不变扰动。论文中采用了多种类人的复述技巧,例如同义词替换、句子结构调整、信息重组等。这些技巧旨在改变测试样本的表达方式,同时保持知识的核心内容不变。此外,PertEval还设计了一系列响应一致性分析指标,例如准确率变化、置信度变化等,用于评估模型在不同测试样本上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

使用PertEval对六个代表性的LLMs进行了重新评估,结果表明LLMs在原始基准测试上的性能被显著高估,GPT-4的性能高估了25.8%。PertEval还揭示了LLMs对虚假知识的不确定性以及潜在的死记硬背行为。这些发现表明,PertEval能够更准确地评估LLMs的知识能力,并为模型改进提供重要的线索。

🎯 应用场景

PertEval可用于评估和改进大语言模型的知识掌握能力,帮助开发者构建更可靠、更强大的AI系统。该工具包可应用于教育、医疗、金融等多个领域,例如,在教育领域,可以利用PertEval评估学生的知识掌握程度;在医疗领域,可以利用PertEval评估医疗诊断模型的准确性。

📄 摘要(原文)

Expert-designed close-ended benchmarks are indispensable in assessing the knowledge capacity of large language models (LLMs). Despite their widespread use, concerns have mounted regarding their reliability due to limited test scenarios and an unavoidable risk of data contamination. To rectify this, we present PertEval, a toolkit devised for in-depth probing of LLMs' knowledge capacity through \textbf{knowledge-invariant perturbations}. These perturbations employ human-like restatement techniques to generate on-the-fly test samples from static benchmarks, meticulously retaining knowledge-critical content while altering irrelevant details. Our toolkit further includes a suite of \textbf{response consistency analyses} that compare performance on raw vs. perturbed test sets to precisely assess LLMs' genuine knowledge capacity. Six representative LLMs are re-evaluated using PertEval. Results reveal significantly inflated performance of the LLMs on raw benchmarks, including an absolute 25.8% overestimation for GPT-4. Additionally, through a nuanced response pattern analysis, we discover that PertEval retains LLMs' uncertainty to specious knowledge, and reveals their potential rote memorization to correct options which leads to overestimated performance. We also find that the detailed response consistency analyses by PertEval could illuminate various weaknesses in existing LLMs' knowledge mastery and guide the development of refinement. Our findings provide insights for advancing more robust and genuinely knowledgeable LLMs. Our code is available at \url{https://github.com/aigc-apps/PertEval}.