Temporally Consistent Factuality Probing for Large Language Models

📄 arXiv: 2409.14065v2 📥 PDF

作者: Ashutosh Bajpai, Aaryan Goyal, Atif Anwer, Tanmoy Chakraborty

分类: cs.CL, cs.LG

发布日期: 2024-09-21 (更新: 2024-10-17)

DOI: 10.18653/v1/2024.emnlp-main.887


💡 一句话要点

提出TeCFaP任务与TEMP-COFAC数据集,并设计CoTSeLF框架提升LLM的时间一致性事实性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性探究 时间一致性 多任务学习 强化学习 知识库 指令调优

📋 核心要点

  1. 现有LLM事实性评估方法在结构和时间维度上存在局限性,难以全面评估其知识一致性。
  2. 提出TeCFaP任务和TEMP-COFAC数据集,用于在时间维度上探究LLM的事实一致性。
  3. 设计CoTSeLF框架,结合多任务指令调优和时间敏感强化学习,显著提升LLM的时间一致性事实性。

📝 摘要(中文)

大型语言模型(LLM)作为一种替代知识库被广泛使用,这要求它们在释义查询中具有事实一致性,即正确性和一致性。最近,人们做出了重大尝试来对数据集和指标进行基准测试,以评估LLM的这些特性。然而,查询公式中的结构简单性(主语-关系-宾语)和当代关联限制了事实性和一致性的更广泛定义。在本研究中,我们引入了TeCFaP,一种新颖的时间一致性事实性探究任务,以扩展时间维度上的一致性事实性探究。为此,我们提出了TEMP-COFAC,一个高质量的前缀式英语查询释义数据集。随后,我们扩展了现有指标的定义,以表示跨时间维度的一致性事实性。我们对各种LLM进行了实验,发现它们在TeCFaP上的表现不佳。接下来,我们提出了一种新的解决方案CoTSeLF(一致性时间敏感学习框架),将多任务指令调优(MT-IT)与一致性时间敏感强化学习(CTSRL)相结合,以提高LLM的时间一致性事实性。我们的实验证明了CoTSeLF优于多个基线的有效性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在时间维度上的事实一致性问题。现有的事实性评估方法主要关注结构简单的主语-关系-宾语三元组,并且缺乏对时间信息的考虑,导致无法全面评估LLM在不同时间点上知识的一致性。这使得LLM在回答涉及时间演变的问题时容易出现矛盾或错误。

核心思路:论文的核心思路是通过构建一个时间一致性事实性探究任务(TeCFaP)和一个高质量的数据集(TEMP-COFAC),来促使LLM学习并保持时间维度上的一致性知识。此外,论文还提出了一个名为CoTSeLF的框架,该框架结合了多任务指令调优和时间敏感强化学习,以进一步提升LLM的时间一致性事实性。

技术框架:CoTSeLF框架主要包含两个阶段:多任务指令调优(MT-IT)和一致性时间敏感强化学习(CTSRL)。在MT-IT阶段,使用TEMP-COFAC数据集对LLM进行微调,使其初步具备时间一致性事实性。在CTSRL阶段,利用强化学习进一步优化LLM,使其能够更好地处理时间敏感的问题。该框架的目标是使LLM在回答涉及时间信息的问题时,能够保持知识的一致性,避免出现矛盾或错误。

关键创新:论文的主要创新点在于:1) 提出了TeCFaP任务,扩展了事实性评估的维度,使其能够覆盖时间信息;2) 构建了TEMP-COFAC数据集,为LLM的时间一致性事实性学习提供了高质量的训练数据;3) 提出了CoTSeLF框架,结合了多任务指令调优和时间敏感强化学习,有效地提升了LLM的时间一致性事实性。与现有方法相比,CoTSeLF框架能够更好地处理时间敏感的问题,并保持LLM知识的一致性。

关键设计:TEMP-COFAC数据集包含前缀式英语查询释义,这些释义在时间维度上是相关的。在CTSRL阶段,设计了一个时间敏感的奖励函数,该函数根据LLM回答的时间一致性程度来给予奖励。具体来说,如果LLM的回答在时间上是一致的,则给予较高的奖励;如果LLM的回答在时间上是不一致的,则给予较低的奖励或惩罚。此外,还使用了策略梯度算法来优化LLM的策略,使其能够更好地处理时间敏感的问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoTSeLF框架在TeCFaP任务上显著优于多个基线模型。具体来说,CoTSeLF框架在时间一致性事实性方面取得了XX%的提升(具体数值未知)。这表明CoTSeLF框架能够有效地提升LLM的时间一致性事实性,使其在回答涉及时间信息的问题时更加可靠和一致。

🎯 应用场景

该研究成果可应用于提升LLM在知识密集型任务中的可靠性和一致性,例如历史事件分析、医学诊断、金融预测等领域。通过确保LLM在时间维度上的事实一致性,可以提高其在这些领域的应用价值,并减少因知识错误或矛盾而导致的风险。

📄 摘要(原文)

The prolific use of Large Language Models (LLMs) as an alternate knowledge base requires them to be factually consistent, necessitating both correctness and consistency traits for paraphrased queries. Recently, significant attempts have been made to benchmark datasets and metrics to evaluate LLMs for these traits. However, structural simplicity (subject-relation-object) and contemporary association in their query formulation limit the broader definition of factuality and consistency. In this study, we introduce TeCFaP, a novel Temporally Consistent Factuality Probe task to expand the consistent factuality probe in the temporal dimension. To this end, we propose TEMP-COFAC, a high-quality dataset of prefix-style English query paraphrases. Subsequently, we extend the definitions of existing metrics to represent consistent factuality across temporal dimension. We experiment with a diverse set of LLMs and find most of them performing poorly on TeCFaP. Next, we propose a novel solution CoTSeLF (Consistent-Time-Sensitive Learning Framework) combining multi-task instruction tuning (MT-IT) with consistent-time-sensitive reinforcement learning (CTSRL) to improve temporally consistent factuality in LLMs. Our experiments demonstrate the efficacy of CoTSeLF over several baselines.