What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
作者: Shashidhar Reddy Javaji, Zining Zhu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-09-19 (更新: 2025-07-07)
期刊: 2nd AI4Research Workshop: Towards a Knowledge-grounded Scientific Research Lifecycle, AAAI 2025
💡 一句话要点
提出基于好奇心驱动提问的LLM评估框架,用于衡量模型知识获取潜力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型评估 知识获取 好奇心驱动 问题生成 模型能力评估
📋 核心要点
- 现有方法缺乏对LLM知识获取潜力的有效评估,难以衡量模型自主学习新知识的能力。
- 该论文提出一种基于好奇心驱动提问的评估框架,通过分析LLM生成问题的质量来评估其知识获取潜力。
- 实验结果表明,模型大小并非决定知识获取潜力的唯一因素,较小的Phi-2模型表现甚至优于大型模型。
📝 摘要(中文)
大型语言模型(LLM)存储了海量知识,但其获取新知识的潜力仍是未知数。本文提出了一种新颖的评估框架,用于评估LLM的知识获取能力。该框架提示LLM针对引入科学知识的陈述生成问题,模拟好奇的人第一次面对该陈述时的反应。通过对生成问题的质量进行评分,从而评估LLM的知识获取潜力。我们进行了受控消融研究以验证我们的评分程序。此外,我们创建了一个合成数据集,包含1101个物理、化学和数学领域的不同难度级别的陈述,300个常识陈述和567个不正确的陈述。我们进行了人工评估以验证我们的模型评估,在所有三个指标上实现了约0.7的加权Cohen's kappa值。我们发现,像GPT-4和Mistral 8x7b这样的大型模型擅长生成连贯且相关的问题,而较小的Phi-2模型同样有效甚至更有效。这表明模型的大小并非完全决定其知识获取潜力。所提出的框架量化了一种常被忽视的关键模型能力,并为开发更博学的AI系统开辟了研究机会。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLM)获取新知识的潜力这一问题。现有方法主要关注LLM对已有知识的掌握程度,而忽略了其自主学习和探索未知领域的能力。因此,缺乏一种能够量化LLM好奇心和知识获取意愿的评估方法。
核心思路:论文的核心思路是模拟人类的好奇心,通过让LLM针对给定的知识陈述生成问题,来评估其知识获取潜力。高质量的问题反映了模型对该知识的深入思考和探索意愿,从而可以作为衡量其知识获取能力的重要指标。这种方法将知识获取过程转化为可量化的提问行为。
技术框架:该评估框架主要包含以下几个阶段:1) 知识陈述生成:构建包含物理、化学、数学、常识等多个领域的知识陈述数据集,并包含正确和错误的陈述。2) 问题生成:使用LLM针对每个知识陈述生成一系列问题。3) 问题质量评估:设计一套评分标准,从相关性、连贯性和信息量等多个维度评估生成问题的质量。4) 模型评估:根据问题质量评分,对不同LLM的知识获取潜力进行比较和分析。
关键创新:该论文的关键创新在于提出了一种基于好奇心驱动提问的LLM评估方法。与传统的知识问答或完形填空等评估方式不同,该方法更侧重于考察LLM主动探索和学习新知识的能力。此外,论文还构建了一个包含多种类型知识陈述的合成数据集,为该评估框架的实施提供了数据基础。
关键设计:在问题质量评估方面,论文设计了多个评估指标,包括:问题与知识陈述的相关性(Relevance)、问题的连贯性(Coherence)和问题的信息量(Informativeness)。此外,论文还进行了人工评估,以验证模型评估结果的可靠性。在数据集构建方面,论文考虑了不同难度级别的知识陈述,以更全面地评估LLM的知识获取潜力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大型模型如GPT-4和Mistral 8x7b在生成连贯和相关的问题方面表现出色,但较小的Phi-2模型在知识获取潜力方面表现同样出色甚至更优。人工评估结果与模型评估结果具有较高的一致性(Cohen's kappa约为0.7),验证了该评估框架的有效性。
🎯 应用场景
该研究成果可应用于开发更智能、更具自主学习能力的AI系统。例如,可以利用该评估框架指导LLM的训练,使其能够更有效地获取和利用新知识。此外,该框架还可以用于评估不同LLM在特定领域的知识获取潜力,从而为用户选择合适的模型提供参考。
📄 摘要(原文)
Large language models (LLMs) can store a massive amount of knowledge, yet their potential to acquire new knowledge remains unknown. We propose a novel evaluation framework that evaluates this capability. This framework prompts LLMs to generate questions about a statement introducing scientific knowledge, simulating a curious person when facing the statement for the first time. We score the qualities of the generated questions, thereby evaluating the knowledge acquisition potential of the LLM. We apply controlled ablation studies to validate our scoring procedures. Additionally, we created a synthetic dataset consisting of 1101 statements in physics, chemistry, and maths with distinct levels of difficulties, 300 general knowledge statements, and 567 incorrect statements. Human evaluations were conducted to validate our model assessments, achieving an approximate weighted Cohen's kappa of 0.7 on all three metrics considered. We find that while large models like GPT-4 and Mistral 8x7b are adept at generating coherent and relevant questions, the smaller Phi-2 model is equally or more effective. This indicates that size does not solely determine a model's knowledge acquisition potential. The proposed framework quantifies a critical model capability that was commonly overlooked and opens up research opportunities for developing more knowledgeable AI systems