Can LLMs Be Constrained to the Past? Improving Knowledge Cutoff through Recall-Based Prompting

📄 arXiv: 2606.05804v1 📥 PDF

作者: Michiro Asai, Ailiang Lin, Yu Kishimoto, Takao Obi, Satoshi Kosugi, Kotaro Funakoshi, Manabu Okumura

分类: cs.CL

发布日期: 2026-06-04


💡 一句话要点

提出基于回忆的提示策略以改善知识截止问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识截止 回忆机制 智能问答 反事实推理

📋 核心要点

  1. 现有方法在处理未明确查询的后截止知识时存在显著不足,导致模型生成的答案不够准确。
  2. 论文提出自我回忆(SR)和问题回忆(QR)两种策略,以帮助模型在知识截止的限制下更好地生成相关信息。
  3. 实验结果表明,所提方法在多个基准测试中优于传统方法,尤其在反事实问题上提升显著。

📝 摘要(中文)

本文探讨了如何通过提示大语言模型(LLM)在知识截止日期后表现得像是无法获取信息。现有方法主要依赖直接回答生成,但在未明确查询后截止知识的情况下表现不佳。为此,提出了两种基于回忆的提示策略:自我回忆(SR)和问题回忆(QR)。在三个现有基准测试中,这些方法超越了直接回答提示和传统逐步推理基线,尤其在反事实问题上表现出显著提升。为评估不同截止设置的鲁棒性,构建了多截止历史事件基准(MHEB),结果显示知识截止性能随截止距离变化,而结合SR和QR的策略始终表现最佳。

🔬 方法详解

问题定义:本文旨在解决大语言模型在知识截止后无法有效处理相关信息的问题。现有方法主要依赖直接回答生成,但在未明确询问后截止知识时表现不佳。

核心思路:提出基于回忆的提示策略,通过自我回忆(SR)和问题回忆(QR)来引导模型生成符合截止日期的信息。这种设计旨在增强模型对截止知识的理解和应用。

技术框架:整体流程包括两个主要模块:自我回忆模块和问题回忆模块。自我回忆模块要求模型重述截止约束,而问题回忆模块则要求模型回忆与问题相关的截止信息。

关键创新:最重要的创新在于引入了回忆机制,使模型不仅依赖直接回答,而是通过回忆相关信息来生成答案。这与现有方法的直接生成方式有本质区别。

关键设计:在参数设置上,模型的提示设计经过精心调整,以确保回忆机制的有效性。损失函数和网络结构也进行了优化,以支持回忆策略的实施。具体细节在实验部分进行了验证。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,所提的自我回忆和问题回忆策略在三个基准测试中均超越了传统的直接回答提示方法,尤其在反事实问题上提升幅度显著,表现出更强的鲁棒性和准确性。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、知识管理和教育技术等。通过改善模型在知识截止情况下的表现,可以提升用户体验和信息获取的准确性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Prompted knowledge cutoff instructs a large language model (LLM) to act as if information beyond a specified cutoff date were unavailable. However, prior work mainly relies on direct-answer generation, which struggles when post-cutoff knowledge is not explicitly queried but is only causally related to the question. To address this limitation, we propose two recall-based prompting strategies: Self-Recall (SR), which asks the model to restate its cutoff constraint, and Question-Recall (QR), which requires the model to recall question-relevant information valid under the cutoff. Across three existing benchmarks, our methods outperform both direct-answer prompting and conventional step-by-step reasoning baselines, with particularly strong improvements on counterfactual questions. To investigate robustness across different cutoff settings, we further construct the Multi-cutoff Historical Event Benchmark (MHEB), which evaluates the same question under multiple cutoff years. Results show that knowledge cutoff performance varies with cutoff distance, while combining SR and QR consistently yields the best performance.