Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives

作者: Xinliang Frederick Zhang, Nick Beauchamp, Lu Wang

分类: cs.CL, cs.AI

发布日期: 2024-10-07 (更新: 2024-11-17)

备注: EMNLP'24 Findings

🔗 代码/项目: GITHUB

💡 一句话要点

提出Narrative-of-Thought，提升大语言模型在时间推理任务上的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间推理 大型语言模型 提示工程 时间图生成 叙事生成

📋 核心要点

大型语言模型在时间推理方面存在不足，尤其是在复杂的时间关系理解和推理上，这限制了它们在需要时间感知任务中的应用。
论文提出Narrative-of-Thought (NoT) 方法，通过引导模型生成时间叙事，辅助其构建更准确的时间图，从而提升时间推理能力。
实验结果表明，NoT方法显著提升了模型在时间图生成任务上的性能，在某些指标上甚至可以与更大的模型相媲美。

📝 摘要（中文）

本文研究了大型语言模型（LLMs）在时间推理任务中的能力，特别是时间图生成任务。研究表明，即使是GPT-3.5/4这样强大的LLM，在该任务上也面临巨大挑战，且小模型（<10B）的性能远低于LLM。为了弥合这一差距，本文提出了一种新的提示技术，即思维叙事（Narrative-of-Thought, NoT）。NoT首先将事件集转换为Python类，然后提示小模型生成时间相关的叙述，从而指导最终时间图的生成。大量实验表明，NoT能够有效提升各种指标。值得注意的是，NoT在Schema-11评估集上获得了最高的F1分数，并且整体F1分数与GPT-3.5相当。NoT还在结构相似性方面取得了最佳表现，甚至优于GPT-3.5/4。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在时间推理任务，特别是时间图生成任务中的不足。现有方法，即使是大型模型如GPT-3.5/4，在该任务上也表现出明显的局限性，而小型模型的性能差距更大。现有的prompting方法难以有效引导模型进行复杂的时间关系推理。

核心思路：论文的核心思路是利用叙事来辅助模型进行时间推理。通过将事件转化为时间相关的叙事，引导模型逐步理解事件之间的时序关系，从而更好地构建时间图。这种方法模拟了人类通过讲述故事来理解和记忆事件的方式。

技术框架：NoT方法主要包含以下几个阶段：1) 事件表示：将事件集合转换为Python类，方便模型进行结构化处理。2) 叙事生成：使用prompt引导小型语言模型生成时间相关的叙事，描述事件之间的时序关系。3) 时间图生成：基于生成的叙事，进一步prompt模型生成最终的时间图。整个流程旨在利用叙事作为桥梁，连接事件集合和时间图。

关键创新：NoT的关键创新在于引入了“叙事”这一中间层，将复杂的时间推理任务分解为更易于处理的叙事生成和图构建两个子任务。这种方法使得小型模型也能有效地进行时间推理，缩小了与大型模型之间的性能差距。与直接生成时间图相比，NoT方法更符合人类的认知过程。

关键设计：在叙事生成阶段，论文设计了特定的prompt，引导模型生成包含时间信息的叙事。例如，prompt可以要求模型描述事件发生的先后顺序、持续时间以及事件之间的因果关系。此外，论文还探索了不同的叙事风格和详细程度对最终时间图生成的影响。具体参数设置和损失函数信息未知。

🖼️ 关键图片

📊 实验亮点

NoT方法在Schema-11评估集上取得了最高的F1分数，表明其在时间推理任务上的优越性能。此外，NoT方法在整体F1分数上与GPT-3.5相当，并在结构相似性方面优于GPT-3.5/4，证明了其在提升模型时间推理能力方面的有效性。这些结果表明，即使是小型模型，通过有效的prompting策略，也能在特定任务上达到甚至超越大型模型的性能。

🎯 应用场景

该研究成果可应用于事件预测、故事理解、智能日程管理、医疗诊断等领域。通过提升模型的时间推理能力，可以使其更好地理解和预测事件的发展趋势，从而为决策提供更准确的依据。未来，该方法有望应用于更复杂的时序数据分析和预测任务。

📄 摘要（原文）

Reasoning about time and temporal relations is an integral aspect of human cognition, essential for perceiving the world and navigating our experiences. Though large language models (LLMs) have demonstrated impressive performance in many reasoning tasks, temporal reasoning remains challenging due to its intrinsic complexity. In this work, we first study an essential task of temporal reasoning -- temporal graph generation, to unveil LLMs' inherent, global reasoning capabilities. We show that this task presents great challenges even for the most powerful LLMs, such as GPT-3.5/4. We also notice a significant performance gap by small models (<10B) that lag behind LLMs by 50%. Next, we study how to close this gap with a budget constraint, e.g., not using model finetuning. We propose a new prompting technique tailored for temporal reasoning, Narrative-of-Thought (NoT), that first converts the events set to a Python class, then prompts a small model to generate a temporally grounded narrative, guiding the final generation of a temporal graph. Extensive experiments showcase the efficacy of NoT in improving various metrics. Notably, NoT attains the highest F1 on the Schema-11 evaluation set, while securing an overall F1 on par with GPT-3.5. NoT also achieves the best structural similarity across the board, even compared with GPT-3.5/4. Our code is available at https://github.com/launchnlp/NoT.

Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理