Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models

📄 arXiv: 2405.09605v2 📥 PDF

作者: Anna A. Ivanova, Aalok Sathe, Benjamin Lipkin, Unnathi Kumar, Setayesh Radkani, Thomas H. Clark, Carina Kauf, Jennifer Hu, R. T. Pramod, Gabriel Grand, Vivian Paulun, Maria Ryskina, Ekin Akyürek, Ethan Wilcox, Nafisa Rashid, Leshem Choshen, Roger Levy, Evelina Fedorenko, Joshua Tenenbaum, Jacob Andreas

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-05-15 (更新: 2025-07-03)

备注: Accepted to Transactions of the ACL (TACL). Contains 25 pages (14 main), 6 figures. Visit http://ewok-core.github.io for data and code. Authors Anna Ivanova, Aalok Sathe, Benjamin Lipkin contributed equally


💡 一句话要点

提出EWoK框架,用于评估语言模型对基本世界知识的理解能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界知识 语言模型 评估框架 常识推理 知识表示

📋 核心要点

  1. 现有评估方法难以区分语言模型对世界知识的理解和对表面共现统计的记忆,这是评估语言模型世界建模能力的一大挑战。
  2. EWoK框架通过针对特定概念,并灵活填充对象、主体和位置,生成可控数据集,从而评估语言模型对世界知识的概念理解。
  3. 实验结果表明,即使是大型语言模型在EWoK数据集上的表现也远低于人类,尤其在物理和空间关系方面,这表明模型在世界建模方面仍有很大提升空间。

📝 摘要(中文)

本文提出了世界知识要素(EWoK)框架,旨在评估语言模型在世界建模方面的概念知识理解能力。EWoK针对多个知识领域中的特定概念,这些概念对人类的世界建模至关重要,例如社会互动(帮助、欺骗)和空间关系(左、右)。框架中的对象、主体和位置可以灵活填充,从而轻松生成多个受控数据集。同时,本文还发布了EWoK-core-1.0数据集,包含4,374个条目,涵盖11个世界知识领域。研究人员评估了20个开源大型语言模型(13亿至700亿参数),并将其性能与人类表现进行了比较。结果表明,所有测试模型的性能均低于人类,且不同领域之间的结果差异很大。在社会互动和社会属性方面的表现最高,而在物理关系和空间关系方面的表现最低。总而言之,该数据集突出了即使是大型模型也难以处理的简单案例,并为有针对性地研究LLM世界建模能力提供了丰富的途径。

🔬 方法详解

问题定义:论文旨在解决如何有效评估语言模型对世界知识的理解能力的问题。现有方法的痛点在于难以区分模型是真正理解了世界知识,还是仅仅记住了大量的文本共现统计信息。这使得评估结果不够可靠,无法准确反映模型的世界建模能力。

核心思路:论文的核心思路是设计一个专门的评估框架,该框架能够针对性地测试模型对特定世界知识概念的理解,并控制数据集中的表面共现统计信息。通过这种方式,可以更准确地评估模型是否真正掌握了世界知识,而不仅仅是记住了文本模式。

技术框架:EWoK框架包含以下几个主要组成部分: 1. 概念选择:选择对人类世界建模至关重要的概念,涵盖多个知识领域,如社会互动、空间关系等。 2. 条目生成:基于选定的概念,生成一系列评估条目。这些条目可以灵活地填充对象、主体和位置,从而生成多个受控数据集。 3. 模型评估:使用生成的评估条目,评估语言模型对世界知识的理解能力。通过比较模型在不同领域和不同条目上的表现,可以深入了解模型的优势和不足。 4. 性能比较:将模型的性能与人类表现进行比较,从而评估模型与人类在世界建模能力方面的差距。

关键创新:EWoK框架的关键创新在于其能够针对性地评估语言模型对特定世界知识概念的理解能力。与现有方法相比,EWoK框架能够更好地控制数据集中的表面共现统计信息,从而更准确地评估模型是否真正掌握了世界知识。此外,EWoK框架还提供了一个灵活的条目生成机制,可以轻松生成多个受控数据集,从而方便研究人员进行更深入的分析。

关键设计:EWoK框架的关键设计包括: 1. 概念选择:选择对人类世界建模至关重要的概念,并确保这些概念具有明确的定义和可操作性。 2. 条目生成:设计一种灵活的条目生成机制,可以根据需要生成不同类型的评估条目,并控制数据集中的表面共现统计信息。 3. 评估指标:选择合适的评估指标,能够准确反映模型对世界知识的理解能力,例如准确率、召回率等。 4. 基线模型:选择合适的基线模型,用于比较EWoK框架的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有测试的开源大型语言模型(1.3B-70B参数)在EWoK数据集上的表现均低于人类。在社会互动和社会属性方面的表现最高,而在物理关系和空间关系方面的表现最低。例如,在空间关系方面,模型的准确率远低于人类水平,这表明模型在理解和推理空间关系方面存在明显的不足。这些结果突出了即使是大型模型也难以处理的简单案例,并为有针对性地研究LLM世界建模能力提供了依据。

🎯 应用场景

EWoK框架可应用于评估和提升语言模型在各种需要世界知识理解的任务中的表现,例如常识推理、对话系统、机器人导航等。通过使用EWoK框架,可以更好地了解语言模型的优势和不足,并有针对性地改进模型的世界建模能力,从而提高其在实际应用中的性能和可靠性。未来,EWoK框架可以扩展到更多知识领域,并与其他评估方法相结合,从而更全面地评估语言模型的智能水平。

📄 摘要(原文)

The ability to build and reason about models of the world is essential for situated language understanding. But evaluating world modeling capabilities in modern AI systems -- especially those based on language models -- has proven challenging, in large part because of the difficulty of disentangling conceptual knowledge about the world from knowledge of surface co-occurrence statistics. This paper presents Elements of World Knowledge (EWoK), a framework for evaluating language models' understanding of the conceptual knowledge underlying world modeling. EWoK targets specific concepts from multiple knowledge domains known to be important for world modeling in humans, from social interactions (help, deceive) to spatial relations (left, right). Objects, agents, and locations in the items can be flexibly filled in, enabling easy generation of multiple controlled datasets. We then introduce EWoK-core-1.0, a dataset of 4,374 items covering 11 world knowledge domains. We evaluate 20 open-weights large language models (1.3B--70B parameters) and compare them with human performance. All tested models perform worse than humans, with results varying drastically across domains. Performance on social interactions and social properties was highest and performance on physical relations and spatial relations was lowest. Overall, this dataset highlights simple cases where even large models struggle and presents rich avenues for targeted research on LLM world modeling capabilities.