Towards Explainable Temporal Reasoning in Large Language Models: A Structure-Aware Generative Framework

📄 arXiv: 2505.15245v1 📥 PDF

作者: Zihao Jiang, Ben Liu, Miao Peng, Wenjie Xu, Yao Xiao, Zhenyan Shan, Min Peng

分类: cs.CL, cs.AI

发布日期: 2025-05-21

备注: In Findings of the Association for Computational Linguistics: ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出GETER框架,增强大语言模型在时序推理中的可解释性,并构建了相应的评测基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时序推理 大语言模型 可解释性 知识图谱 图神经网络

📋 核心要点

  1. 现有大语言模型在时序推理中缺乏可解释性,难以理解其推理过程。
  2. GETER框架结合时序知识图谱和文本信息,利用结构感知生成方法提升可解释性。
  3. 实验表明,GETER在时序推理任务上取得了领先性能,并具有良好的泛化能力。

📝 摘要(中文)

本文针对大语言模型(LLMs)在时序推理中缺乏可解释性的问题,提出了一个全面的评测基准,该基准覆盖了广泛的时间粒度,旨在系统地评估LLMs在可解释时序推理方面的能力。研究发现,仅依赖文本信息时,LLMs难以提供令人信服的解释。为了解决这一挑战,本文提出了一种新颖的结构感知生成框架GETER,该框架集成了图结构和文本,用于可解释的时序推理。具体而言,首先利用时序知识图谱开发一个时序编码器,以捕获查询的结构信息。随后,引入一个结构-文本前缀适配器,将图结构特征映射到文本嵌入空间。最后,LLMs通过将软图令牌与指令调优提示令牌无缝集成来生成解释文本。实验结果表明,GETER实现了最先进的性能,同时展示了其有效性和强大的泛化能力。数据集和代码已在https://github.com/carryTatum/GETER上公开。

🔬 方法详解

问题定义:论文旨在解决大语言模型在时序推理任务中缺乏可解释性的问题。现有方法主要关注性能提升,忽略了模型推理过程的透明度,导致用户难以信任模型的输出。此外,仅依赖文本信息进行推理,LLMs难以提供令人信服的解释。

核心思路:论文的核心思路是将时序知识图谱的结构化信息融入到大语言模型的推理过程中,从而增强模型的可解释性。通过引入图结构,模型可以更好地理解时间关系,并生成更合理的解释。

技术框架:GETER框架包含以下几个主要模块:1) 时序编码器:利用时序知识图谱提取结构化信息。2) 结构-文本前缀适配器:将图结构特征映射到文本嵌入空间,实现结构化信息和文本信息的融合。3) 大语言模型:利用融合后的信息生成解释文本。整个流程是先利用时序知识图谱对输入进行编码,然后通过适配器将图信息融入文本表示,最后利用大语言模型生成可解释的推理过程。

关键创新:GETER的关键创新在于将图结构信息融入到大语言模型的文本生成过程中。通过结构-文本前缀适配器,实现了图结构特征和文本嵌入空间的有效融合,使得模型能够更好地利用时序知识图谱中的结构化信息进行推理。

关键设计:时序编码器采用图神经网络(GNN)来学习节点和边的表示。结构-文本前缀适配器使用多层感知机(MLP)将图结构特征映射到文本嵌入空间。损失函数包括生成损失和对比学习损失,用于优化模型参数,鼓励模型生成准确且可解释的推理过程。具体的GNN结构、MLP层数和损失函数权重等参数需要在实验中进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GETER在时序推理任务上取得了state-of-the-art的性能,显著优于现有方法。同时,GETER能够生成更合理、更易于理解的解释文本,证明了其在可解释性方面的优势。论文还验证了GETER的泛化能力,表明其在不同数据集和任务上都具有良好的表现。

🎯 应用场景

该研究成果可应用于智能问答系统、事件预测、医疗诊断等领域。通过提供可解释的时序推理过程,可以增强用户对模型的信任,并帮助用户更好地理解事件之间的因果关系。未来,该方法可以扩展到其他需要可解释推理的领域。

📄 摘要(原文)

While large language models (LLMs) show great potential in temporal reasoning, most existing work focuses heavily on enhancing performance, often neglecting the explainable reasoning processes underlying the results. To address this gap, we introduce a comprehensive benchmark covering a wide range of temporal granularities, designed to systematically evaluate LLMs' capabilities in explainable temporal reasoning. Furthermore, our findings reveal that LLMs struggle to deliver convincing explanations when relying solely on textual information. To address challenge, we propose GETER, a novel structure-aware generative framework that integrates Graph structures with text for Explainable TEmporal Reasoning. Specifically, we first leverage temporal knowledge graphs to develop a temporal encoder that captures structural information for the query. Subsequently, we introduce a structure-text prefix adapter to map graph structure features into the text embedding space. Finally, LLMs generate explanation text by seamlessly integrating the soft graph token with instruction-tuning prompt tokens. Experimental results indicate that GETER achieves state-of-the-art performance while also demonstrating its effectiveness as well as strong generalization capabilities. Our dataset and code are available at https://github.com/carryTatum/GETER.