Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements
作者: Yiming Liang, Yizhi Li, Yantao Du, Ge Zhang, Jiayi Zhou, Yuchen Wu, Yinzhu Piao, Denghui Cao, Tong Sun, Ziniu Li, Li Du, Bo Lei, Jiaheng Liu, Chenghua Lin, Zhaoxiang Zhang, Wenhao Huang, Jiajun Zhang
分类: cs.CL, cs.AI
发布日期: 2025-12-31 (更新: 2026-01-06)
💡 一句话要点
提出Encyclo-K,通过动态组合知识语句评估LLM的综合理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 基准测试 知识评估 动态评估 综合理解 知识语句 数据污染
📋 核心要点
- 现有LLM基准测试易受数据污染,评估范围局限于单知识点,且依赖昂贵的专家标注。
- Encyclo-K以知识语句为单位构建基准,动态组合语句生成问题,避免记忆,实现多知识点评估。
- 实验表明,即使是GPT-5.1在Encyclo-K上的准确率也仅为62.07%,验证了其挑战性和区分度。
📝 摘要(中文)
基准测试在追踪大型语言模型(LLMs)的快速发展和识别其能力边界方面起着关键作用。然而,现有的基准测试主要在问题层面策划问题,存在三个根本性限制:易受数据污染、限制于单知识点评估以及依赖昂贵的领域专家标注。我们提出了Encyclo-K,这是一个基于语句的基准测试,从根本上重新思考了基准测试的构建。我们的关键见解是,知识语句,而不是问题,可以作为策划的单元,然后可以从中构建问题。我们从权威教科书中提取独立的知识语句,并通过在测试时随机抽样将它们动态地组合成评估问题。这种设计直接解决了所有三个限制:组合空间过于庞大而无法记忆,并且模型排名在动态生成的问题集中保持稳定,从而能够可靠地定期刷新数据集;每个问题聚合8-10个语句,用于全面的多知识评估;注释者仅验证格式合规性,而无需领域专业知识,从而大大降低了注释成本。对50多个LLM的实验表明,Encyclo-K提出了巨大的挑战,并具有很强的区分能力。即使是表现最佳的OpenAI-GPT-5.1也仅达到62.07%的准确率,并且模型性能显示出清晰的梯度分布——推理模型的范围从16.04%到62.07%,而聊天模型的范围从9.71%到50.40%。这些结果验证了动态评估和多语句综合理解所带来的挑战。这些发现将Encyclo-K确立为一个可扩展的框架,用于动态评估LLM对多个细粒度学科知识语句的综合理解。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)评估基准主要存在三个问题:一是容易受到数据污染,模型可能已经见过或学习过测试集中的问题;二是评估范围通常局限于单个知识点,无法考察模型对多个知识点综合理解的能力;三是构建基准测试需要领域专家进行标注,成本高昂且难以扩展。因此,需要一种新的基准测试方法,能够克服这些局限性,更全面、可靠地评估LLM的知识理解能力。
核心思路:Encyclo-K的核心思路是将知识语句作为基准测试的基本单元,而不是直接使用问题。从权威教科书中提取独立的知识语句,并在测试时动态地将这些语句组合成问题。这种方法有几个优点:首先,动态组合使得问题空间非常大,模型难以通过记忆来作弊;其次,每个问题包含多个知识语句,可以考察模型对多个知识点综合理解的能力;最后,标注者只需要验证语句的格式合规性,而不需要领域专业知识,大大降低了标注成本。
技术框架:Encyclo-K的整体框架包括以下几个主要步骤:1. 知识语句提取:从权威教科书中提取独立的知识语句。2. 问题生成:在测试时,随机抽取8-10个知识语句,将它们组合成一个问题。3. 模型评估:将生成的问题输入到LLM中,评估其回答的准确性。4. 性能分析:分析LLM在不同知识领域和不同难度级别的问题上的表现。
关键创新:Encyclo-K最重要的创新点在于其动态组合知识语句的评估方式。与传统的静态基准测试相比,Encyclo-K能够更全面、可靠地评估LLM的知识理解能力,并且能够有效地避免数据污染问题。此外,Encyclo-K的标注成本也大大降低,使其更易于扩展和维护。
关键设计:在Encyclo-K中,关键的设计包括:1. 知识语句的来源:选择权威教科书作为知识语句的来源,以保证知识的准确性和可靠性。2. 问题生成的策略:采用随机抽样的方式组合知识语句,以保证问题的多样性和难度。3. 评估指标:使用准确率作为评估指标,以衡量LLM回答的正确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是性能领先的GPT-5.1模型在Encyclo-K上的准确率也仅为62.07%,远低于在其他基准测试上的表现。同时,不同模型的性能呈现明显的梯度分布,推理模型表现优于聊天模型,表明Encyclo-K能够有效区分不同LLM的知识理解能力。
🎯 应用场景
Encyclo-K可用于评估和比较不同LLM的知识理解能力,指导模型训练和优化。它还可应用于教育领域,帮助学生检测知识掌握情况,并为个性化学习提供支持。此外,该方法可扩展到其他知识领域,构建更全面的LLM评估体系。
📄 摘要(原文)
Benchmarks play a crucial role in tracking the rapid advancement of large language models (LLMs) and identifying their capability boundaries. However, existing benchmarks predominantly curate questions at the question level, suffering from three fundamental limitations: vulnerability to data contamination, restriction to single-knowledge-point assessment, and reliance on costly domain expert annotation. We propose Encyclo-K, a statement-based benchmark that rethinks benchmark construction from the ground up. Our key insight is that knowledge statements, not questions, can serve as the unit of curation, and questions can then be constructed from them. We extract standalone knowledge statements from authoritative textbooks and dynamically compose them into evaluation questions through random sampling at test time. This design directly addresses all three limitations: the combinatorial space is too vast to memorize, and model rankings remain stable across dynamically generated question sets, enabling reliable periodic dataset refresh; each question aggregates 8-10 statements for comprehensive multi-knowledge assessment; annotators only verify formatting compliance without requiring domain expertise, substantially reducing annotation costs. Experiments on over 50 LLMs demonstrate that Encyclo-K poses substantial challenges with strong discriminative power. Even the top-performing OpenAI-GPT-5.1 achieves only 62.07% accuracy, and model performance displays a clear gradient distribution--reasoning models span from 16.04% to 62.07%, while chat models range from 9.71% to 50.40%. These results validate the challenges introduced by dynamic evaluation and multi-statement comprehensive understanding. These findings establish Encyclo-K as a scalable framework for dynamic evaluation of LLMs' comprehensive understanding over multiple fine-grained disciplinary knowledge statements.