Teaching Large Language Models When Not to Know: Learning Temporal Critique for Ex-Ante Reasoning

📄 arXiv: 2605.14636v1 📥 PDF

作者: Chenlu Ding, Jiancan Wu, Yanchen Luo, Zheyuan Liu, Yancheng Yuan, Xiang Wang

分类: cs.AI

发布日期: 2026-05-14


💡 一句话要点

提出TCFT框架,提升大语言模型在时序推理中对时间截断点的感知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 时序推理 时间泄露 时间批判 微调 事前推理 截断点感知

📋 核心要点

  1. 大语言模型在时序推理中存在时间泄露问题,即利用了截断时间点之后的信息进行回答。
  2. 提出时间批判微调框架(TCFT),训练模型识别时间泄露,解释时间边界违规,并判断时间可接受性。
  3. 实验结果表明,TCFT显著优于提示工程和监督微调方法,有效降低了时间泄露。

📝 摘要(中文)

大型语言模型(LLMs)在时序截断下进行推理时常常失败:当被要求从较早时间点的角度回答问题时,它们会利用之后才可用的知识。我们通过事前推理的视角研究了这种失败,即模型必须完全依赖于截断点之前已知的信息。通过对提示级别干预的系统分析,我们发现时间泄露对截断点公式和指令位置高度敏感:显式截断点语句优于隐式历史框架,并且前缀约束比后缀约束更有效地减少泄露。这些发现表明,提示可以引导模型进入时间框架,但不能赋予它们验证响应在时间上是否可接受的能力。我们进一步认为,监督微调是不够的,因为事前正确性不是答案的内在属性,而是答案与截断点之间的关系。为了解决这个差距,我们提出了TCFT,一个时间批判微调框架,该框架训练模型以获得截断点感知的时间验证能力。给定一个查询、一个截断点和一个候选响应,TCFT教导模型识别截断点后的泄露,解释时间边界违规,并判断时间可接受性。使用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct进行的实验表明,TCFT始终优于提示和SFT基线,分别平均减少了41.89和37.79个百分点的泄露。

🔬 方法详解

问题定义:大语言模型在进行时序推理时,无法有效区分截断时间点之前和之后的信息,导致在回答问题时会不自觉地利用未来信息,即发生时间泄露。现有的方法,如提示工程和监督微调,无法有效解决这个问题,因为事前正确性并非答案的固有属性,而是答案与截断点之间的关系。

核心思路:论文的核心思路是训练模型具备时间批判能力,即能够判断给定的答案是否符合截断时间点的约束。通过让模型学习识别时间泄露、解释时间边界违规,并判断答案的时间可接受性,从而提高模型在时序推理中的准确性。这样设计的目的是让模型不仅仅是生成答案,而是能够对答案进行自我评估,确保其符合时间约束。

技术框架:TCFT框架包含以下几个主要步骤:1) 给定一个查询、一个截断点和一个候选响应;2) 模型判断候选响应是否存在截断点后的泄露;3) 如果存在泄露,模型解释时间边界违规的原因;4) 模型判断候选响应在时间上是否可接受。整个框架通过微调大语言模型,使其具备时间批判能力。

关键创新:最重要的技术创新点在于提出了时间批判微调的概念,将时间推理问题转化为一个时间验证问题。与传统的监督微调不同,TCFT关注的是答案与截断点之间的关系,而不是答案本身的正确性。这种方法能够更有效地解决时间泄露问题。

关键设计:TCFT的关键设计包括:1) 构建包含查询、截断点和候选响应的数据集,并标注每个候选响应是否存在时间泄露以及泄露的原因;2) 使用对比学习损失函数,鼓励模型区分时间上可接受和不可接受的响应;3) 设计合适的提示模板,引导模型进行时间批判。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TCFT框架在Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct模型上均取得了显著的性能提升,平均减少了41.89和37.79个百分点的时间泄露。TCFT框架优于传统的提示工程和监督微调方法,证明了时间批判微调在解决时序推理问题上的有效性。

🎯 应用场景

该研究成果可应用于需要严格遵守时间约束的场景,例如历史事件分析、金融预测、法律咨询等。通过提高大语言模型在时序推理中的准确性,可以避免模型在这些场景中做出基于未来信息的错误判断,从而提高决策的可靠性。此外,该方法还可以应用于其他需要考虑时间因素的任务,例如对话生成和故事创作。

📄 摘要(原文)

Large language models (LLMs) often fail to reason under temporal cutoffs: when prompted to answer from the standpoint of an earlier time, they exploit knowledge that became available only later. We study this failure through the lens of ex-ante reasoning, where a model must rely exclusively on information knowable before a cutoff. Through a systematic analysis of prompt-level interventions, we find that temporal leakage is highly sensitive to cutoff formulation and instruction placement: explicit cutoff statements outperform implicit historical framings, and prefix constraints reduce leakage more effectively than suffix constraints. These findings indicate that prompting can steer models into a temporal frame, but does not endow them with the ability to verify whether a response is temporally admissible. We further argue that supervised fine-tuning is insufficient, since ex-ante correctness is not an intrinsic property of an answer, but a relation between the answer and the cutoff. To address this gap, we propose TCFT, a Temporal Critique Fine-Tuning framework that trains models to acquire cutoff-aware temporal verification. Given a query, a cutoff, and a candidate response, TCFT teaches the model to identify post-cutoff leakage, explain temporal boundary violations, and judge temporal admissibility. Experiments with Qwen2.5-7B-Instruct and Qwen2.5-14B-Instruct show that TCFT consistently outperforms prompting and SFT baselines, reducing average leakage by 41.89 and 37.79 percentage points, respectively.