IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation
作者: Fan Lin, Shuyi Xie, Yong Dai, Wenlin Yao, Tianjiao Lang, Zishan Xu, Zhichao Hu, Xiao Xiao, Yuhong Liu, Yu Zhang
分类: cs.CL
发布日期: 2024-09-27 (更新: 2024-10-05)
备注: NeurIPS 2024
💡 一句话要点
IDGen:通过项目区分度诱导的提示生成,用于大语言模型评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型评估 提示生成 项目区分度 数据合成 LLM 评估基准 模型区分度
📋 核心要点
- 现有LLM评估集难以跟上模型能力提升,区分度不足,无法有效衡量模型间的细微差异。
- 提出IDGen框架,利用项目区分度理论指导提示生成,确保评估数据能有效区分不同LLM的优劣。
- 实验表明,IDGen生成的数据集更具挑战性和区分度,能更有效地评估SOTA模型,并开源数据集。
📝 摘要(中文)
随着大型语言模型(LLMs)在处理复杂任务方面变得越来越熟练,评估集必须跟上这些进步,以确保其保持足够的区分度。项目区分度(ID)理论广泛应用于教育评估,它衡量单个测试项目区分高分和低分表现者的能力。受此理论的启发,我们提出了一个ID诱导的提示合成框架,用于评估LLMs,以确保评估集可以根据模型能力不断更新和完善。我们的数据合成框架优先考虑广度和特异性。它可以生成全面评估LLMs能力的提示,同时揭示模型之间有意义的性能差异,从而有效地区分它们在各种任务和领域中的相对优势和劣势。为了生成高质量的数据,我们将自我纠正机制纳入到我们的泛化框架中,并开发了两个模型来预测提示区分度和难度分数,为评估数据合成研究贡献了有价值的工具。我们应用我们生成的数据来评估五个SOTA模型。我们的数据平均得分51.92,方差为10.06。相比之下,之前的工作(即SELF-INSTRUCT和WizardLM)获得的平均得分超过67,方差低于3.2。结果表明,我们框架生成的数据比之前的工作更具挑战性和区分度。我们将发布一个包含3000多个精心设计的提示的数据集,以促进LLMs的评估研究。
🔬 方法详解
问题定义:现有的大语言模型评估数据集区分度不足,难以有效区分不同模型的能力差异。随着模型能力的快速提升,原有的评估数据集可能无法充分挑战模型,导致评估结果趋同,无法准确反映模型的真实水平。因此,需要一种能够根据模型能力动态生成具有区分度的评估数据的方法。
核心思路:借鉴教育评估中的项目区分度(Item Discrimination)理论,该理论衡量测试题目区分高分和低分考生的能力。IDGen的核心思想是生成能够有效区分不同LLM的提示(prompts),即某些提示能让表现好的模型得分高,而让表现差的模型得分低。通过这种方式,可以更准确地评估和比较不同LLM的能力。
技术框架:IDGen框架包含以下几个主要阶段:1) 提示生成:利用LLM生成候选提示。2) 区分度预测:训练模型预测候选提示的区分度得分和难度得分。3) 提示选择:根据区分度得分和难度得分,选择高质量的提示加入评估数据集。4) 自我纠正:引入自我纠正机制,进一步提升生成数据的质量。
关键创新:IDGen的关键创新在于将项目区分度理论引入到LLM评估数据生成中。与以往依赖人工或简单规则生成评估数据的方法不同,IDGen能够根据模型的能力动态生成具有区分度的提示,从而更有效地评估和比较不同LLM的能力。此外,引入的自我纠正机制和区分度/难度预测模型也提升了数据生成的质量和效率。
关键设计:在提示生成阶段,使用了多种提示策略,以保证生成数据的多样性。区分度得分和难度得分的预测模型采用了Transformer架构,并使用对比学习进行训练。在提示选择阶段,使用了基于区分度得分和难度得分的加权采样方法,以选择高质量的提示。自我纠正机制则通过让LLM对生成的提示进行评估和修改,进一步提升数据的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IDGen生成的数据集在评估五个SOTA模型时,平均得分为51.92,方差为10.06。相比之下,使用SELF-INSTRUCT和WizardLM数据集评估时,平均得分超过67,方差低于3.2。这表明IDGen生成的数据集更具挑战性和区分度,能够更有效地评估LLM的性能差异。
🎯 应用场景
IDGen可用于构建更具挑战性和区分度的大语言模型评估基准,帮助研究人员更准确地评估模型性能,促进模型能力的提升。该方法也可应用于教育领域,自动生成高质量的测试题目,用于评估学生的知识掌握程度。此外,该技术还可用于生成对抗样本,提升模型的鲁棒性。
📄 摘要(原文)
As Large Language Models (LLMs) grow increasingly adept at managing complex tasks, the evaluation set must keep pace with these advancements to ensure it remains sufficiently discriminative. Item Discrimination (ID) theory, which is widely used in educational assessment, measures the ability of individual test items to differentiate between high and low performers. Inspired by this theory, we propose an ID-induced prompt synthesis framework for evaluating LLMs to ensure the evaluation set can continually update and refine according to model abilities. Our data synthesis framework prioritizes both breadth and specificity. It can generate prompts that comprehensively evaluate the capabilities of LLMs while revealing meaningful performance differences between models, allowing for effective discrimination of their relative strengths and weaknesses across various tasks and domains. To produce high-quality data, we incorporate a self-correct mechanism into our generalization framework, and develop two models to predict prompt discrimination and difficulty score to facilitate our data synthesis framework, contributing valuable tools to evaluation data synthesis research. We apply our generated data to evaluate five SOTA models. Our data achieves an average score of 51.92, accompanied by a variance of 10.06. By contrast, previous works (i.e., SELF-INSTRUCT and WizardLM) obtain an average score exceeding 67, with a variance below 3.2. The results demonstrate that the data generated by our framework is more challenging and discriminative compared to previous works. We will release a dataset of over 3,000 carefully crafted prompts to facilitate evaluation research of LLMs.