Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?

📄 arXiv: 2411.16679v2 📥 PDF

作者: Sohee Yang, Nora Kassner, Elena Gribovskaya, Sebastian Riedel, Mor Geva

分类: cs.CL

发布日期: 2024-11-25 (更新: 2025-05-31)

备注: Findings of ACL 2025


💡 一句话要点

提出SOCRATES数据集,评估大语言模型在无捷径条件下潜在多跳推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多跳推理 知识推理 数据集构建 无捷径学习

📋 核心要点

  1. 大语言模型在多跳推理中可能利用训练数据中的捷径,导致评估结果虚高。
  2. 构建无捷径数据集SOCRATES,排除头部和答案实体共现的情况,更准确评估模型推理能力。
  3. 实验表明,LLM在特定类型查询中展现出潜在多跳推理能力,但与显式推理存在差距。

📝 摘要(中文)

本文评估了大语言模型(LLM)在潜在地回忆和组合事实以回答多跳查询方面的能力,例如“斯嘉丽·约翰逊出生的那一年,夏季奥运会在哪个国家举办”。此类评估的一个主要挑战是,LLM可能已经通过在相同的训练序列中遇到头部实体“斯嘉丽·约翰逊”和答案实体“美国”,或者仅仅基于基于频率的先验来猜测答案,从而开发出捷径。为了防止捷径,我们排除了头部和答案实体可能在训练期间共同出现的测试查询。通过仔细选择关系和事实,并系统地移除模型可能猜测答案或利用部分匹配的情况,我们构建了一个评估数据集SOCRATES(无捷径潜在推理)。我们观察到,LLM在没有利用捷径的情况下表现出有希望的潜在多跳推理能力,但仅适用于某些类型的查询。对于需要潜在回忆国家作为中间答案的查询,最佳模型实现了80%的潜在可组合性,但对于回忆年份,这一比例降至仅5%。与思维链的比较突出了模型潜在推理能力与显式推理能力之间的显著差距。分析表明,中间答案的潜在表示在具有更高潜在可组合性的查询中更频繁地构建,并显示了预训练期间潜在多跳推理的出现。

🔬 方法详解

问题定义:论文旨在解决大语言模型在多跳推理任务中,由于训练数据中存在的捷径(shortcuts)而导致评估结果失真的问题。现有的评估方法无法有效区分模型真正的推理能力和利用捷径获得答案的能力,使得评估结果偏高,无法真实反映模型的性能。

核心思路:论文的核心思路是构建一个无捷径的数据集,通过排除训练数据中头部实体和答案实体共现的情况,以及模型可能通过频率先验猜测答案的情况,来消除捷径的影响。这样可以更准确地评估模型在没有捷径的情况下,潜在地回忆和组合事实进行多跳推理的能力。

技术框架:论文构建了一个名为SOCRATES的数据集,用于评估LLM的潜在多跳推理能力。数据集构建过程包括:1) 仔细选择关系和事实,确保头部实体和答案实体在训练数据中没有共现;2) 系统地移除模型可能猜测答案或利用部分匹配的情况。评估过程中,使用LLM直接回答多跳查询,并分析其潜在表示,以了解模型是否能够构建中间答案的表示。同时,与Chain-of-Thought方法进行对比,评估模型的显式推理能力。

关键创新:论文最重要的技术创新点在于提出了SOCRATES数据集,该数据集通过消除捷径,能够更准确地评估LLM的潜在多跳推理能力。与现有数据集相比,SOCRATES数据集更加关注消除数据中的偏差,从而能够更真实地反映模型的推理能力。

关键设计:SOCRATES数据集的关键设计在于其构建过程,包括:1) 关系和事实的选择,确保头部实体和答案实体在训练数据中没有共现;2) 负样本的构建,排除模型可能通过频率先验猜测答案的情况;3) 数据集的划分,确保训练集和测试集之间没有信息泄露。此外,论文还分析了模型在不同类型查询中的表现,例如需要回忆国家和需要回忆年份的查询,从而更深入地了解模型的推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在没有利用捷径的情况下,在特定类型的查询中表现出有希望的潜在多跳推理能力。对于需要潜在回忆国家作为中间答案的查询,最佳模型实现了80%的潜在可组合性,但对于回忆年份,这一比例降至仅5%。与Chain-of-Thought的比较突出了模型潜在推理能力与显式推理能力之间的显著差距。

🎯 应用场景

该研究成果可应用于提升大语言模型在知识图谱问答、信息检索、智能客服等领域的性能。通过消除捷径,可以训练出更可靠、更具有泛化能力的模型,从而在实际应用中提供更准确、更可信的答案。

📄 摘要(原文)

We evaluate how well Large Language Models (LLMs) latently recall and compose facts to answer multi-hop queries like "In the year Scarlett Johansson was born, the Summer Olympics were hosted in the country of". One major challenge in such evaluation is that LLMs may have developed shortcuts by encountering the head entity "Scarlett Johansson" and the answer entity "United States" in the same training sequences or merely guess the answer based on frequency-based priors. To prevent shortcuts, we exclude test queries where the head and answer entities might have co-appeared during training. Through careful selection of relations and facts and systematic removal of cases where models might guess answers or exploit partial matches, we construct an evaluation dataset SOCRATES (ShOrtCut-fRee lATent rEaSoning). We observe that LLMs demonstrate promising latent multi-hop reasoning abilities without exploiting shortcuts, but only for certain types of queries. For queries requiring latent recall of countries as the intermediate answer, the best models achieve 80% latent composability, but this drops to just 5% for the recall of years. Comparisons with Chain-of-Thought highlight a significant gap between the ability of models to reason latently versus explicitly. Analysis reveals that latent representations of the intermediate answer are constructed more often in queries with higher latent composability, and shows the emergence of latent multi-hop reasoning during pretraining.