Beyond Known Facts: Generating Unseen Temporal Knowledge to Address Data Contamination in LLM Evaluation

📄 arXiv: 2601.13658v1 📥 PDF

作者: Arthur Amalvy, Hen-Hsen Huang

分类: cs.CL

发布日期: 2026-01-20

备注: 12 pages


💡 一句话要点

提出一种基于生成未来知识的评估方法,解决LLM在时序知识图谱抽取任务中数据污染问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时序知识图谱抽取 数据污染 大型语言模型 评估数据集 未来知识生成

📋 核心要点

  1. 现有TKGE数据集稀缺且存在数据污染,导致LLM评估结果可能被高估,无法真实反映模型性能。
  2. 提出一种生成未来时序知识的评估方法,通过预测未来事实并生成对应文本,构建无污染的评估数据集。
  3. 实验表明,在提出的数据集上评估时,LLM的性能相较于已知事实数据集有所下降,验证了数据污染的影响。

📝 摘要(中文)

信息自动抽取对于构建大型Web知识库(如Wikidata)至关重要。时序知识图谱抽取(TKGE)是从文本中提取具有时间戳的事实,表示为语义四元组(主体、关系、客体、时间戳)。许多最新的系统利用大型语言模型(LLM),由于其在自然语言处理(NLP)领域的许多任务中的性能,LLM正成为Web的新基石。尽管TKGE很重要,但现有的训练和评估数据集仍然稀缺,并且评估数据污染是一个未解决的问题,由于训练集和评估集之间的重叠,可能会夸大LLM的感知性能。为了缓解这些挑战,我们提出了一种新的合成评估数据集,该数据集由预测的未来、以前未见过的时序事实构建,从而消除了污染,并实现了稳健和无偏的基准测试。我们的数据集创建涉及一个两步方法:(1)时序知识图谱预测(TKGF)生成合理的未来四元组,然后对其进行过滤以符合原始知识库模式;(2)LLM执行四元组到文本的生成,创建语义对齐的文本描述。我们对基于LLM的最新抽取框架Extract, Define and Canonicalize (EDC)进行了基准测试,表明与已知事实的数据集相比,在我们的数据集上评估时,LLM的性能会下降。我们公开发布了包含4.2K个未来四元组和相应文本描述的数据集,以及生成方法,从而能够持续创建无限的未来时序数据集,作为TKGE的长期、无污染基准。

🔬 方法详解

问题定义:论文旨在解决时序知识图谱抽取(TKGE)任务中,现有评估数据集存在数据污染的问题。由于LLM在训练过程中可能已经见过评估数据,导致评估结果虚高,无法真实反映模型在未见数据上的泛化能力。

核心思路:论文的核心思路是生成未来才会发生的时序知识,构建一个完全没有被LLM训练过的评估数据集。通过预测未来事实,并将其转化为文本描述,从而创建一个无污染的评估基准。

技术框架:整体框架包含两个主要阶段:1) 时序知识图谱预测(TKGF):利用TKGF模型预测未来可能发生的四元组(主体、关系、客体、时间戳),并进行过滤以保证符合原始知识库的schema。2) 四元组到文本生成:使用LLM将预测的四元组转化为自然语言文本描述,形成最终的评估数据集。

关键创新:最重要的创新点在于利用TKGF生成未来知识,从而避免了评估数据集与LLM训练数据的重叠,从根本上解决了数据污染问题。这种方法可以持续生成新的评估数据,保证评估的长期有效性。

关键设计:TKGF模型的选择和训练,以及四元组到文本生成过程中prompt的设计,是影响数据集质量的关键因素。论文中使用了特定的TKGF模型,并可能采用了特定的prompt工程技术来保证生成文本的质量和语义一致性。具体的模型选择、训练细节和prompt设计在论文中应该有更详细的描述(未知)。

📊 实验亮点

实验结果表明,在提出的无污染数据集上评估时,LLM的性能相较于已知事实数据集有所下降,验证了数据污染对评估结果的影响。该数据集包含4.2K个未来四元组和对应的文本描述,并已公开发布,为TKGE研究提供了一个可靠的评估基准。

🎯 应用场景

该研究成果可应用于时序知识图谱抽取模型的评估和选择,帮助研究人员更准确地评估模型性能,避免数据污染带来的偏差。此外,该方法也可推广到其他NLP任务中,构建无污染的评估数据集,促进相关领域的发展。

📄 摘要(原文)

The automatic extraction of information is important for populating large web knowledge bases such as Wikidata. The temporal version of that task, temporal knowledge graph extraction (TKGE), involves extracting temporally grounded facts from text, represented as semantic quadruples (subject, relation, object, timestamp). Many recent systems take advantage of large language models (LLMs), which are becoming a new cornerstone of the web due to their performance on many tasks across the natural language processing (NLP) field. Despite the importance of TKGE, existing datasets for training and evaluation remain scarce, and contamination of evaluation data is an unaddressed issue, potentially inflating LLMs' perceived performance due to overlaps between training and evaluation sets. To mitigate these challenges, we propose a novel synthetic evaluation dataset constructed from predicted future, previously unseen temporal facts, thereby eliminating contamination and enabling robust and unbiased benchmarking. Our dataset creation involves a two-step approach: (1) Temporal Knowledge Graph Forecasting (TKGF) generates plausible future quadruples, which are subsequently filtered to adhere to the original knowledge base schema; (2) LLMs perform quadruple-to-text generation, creating semantically aligned textual descriptions. We benchmark Extract, Define and Canonicalize (EDC), a state-of-the-art LLM-based extraction framework, demonstrating that LLM performance decreases when evaluated on our dataset compared to a dataset of known facts. We publicly release our dataset consisting of 4.2K future quadruples and corresponding textual descriptions, along with the generation methodology, enabling continuous creation of unlimited future temporal datasets to serve as long-term, contamination-free benchmarks for TKGE.