Multi-Hop Knowledge Composition is Bound by Pretraining Exposure

📄 arXiv: 2606.09338v1 📥 PDF

作者: Yannis Karmim, Luis Marti, Djamé Seddah, Valentin Barrière

分类: cs.CL

发布日期: 2026-06-08


💡 一句话要点

提出多跳知识组合方法以解决语言模型推理不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多跳推理 知识组合 语言模型 数据增强 预训练

📋 核心要点

  1. 现有大型语言模型在处理隐式多跳推理时表现不佳,尽管能够单独检索相关事实。
  2. 论文提出通过数据增强和组合上下文的暴露来改善模型的多跳推理能力,强调预训练阶段的重要性。
  3. 实验结果表明,尽管模型在1-hop推理上达到97%的准确率,但在多跳推理上仍存在显著差距,且未暴露于组合上下文的个体无法获得提升。

📝 摘要(中文)

大型语言模型在隐式多跳推理方面存在缺陷:模型能够正确回答单独问题,但在组合问题时却失败。本文在严格的自然语言环境中研究了这一现象,确认这种组合失败是由于预训练阶段的知识暴露不足,而非知识缺失。我们提出并测试了九种数据增强格式,发现对组合上下文的暴露是隐式多跳推理的必要条件。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在隐式多跳推理中的失败问题,现有方法在处理组合问题时表现不佳,导致推理能力受限。

核心思路:通过对预训练阶段的知识暴露进行分析,提出在数据增强过程中引入组合上下文,以提高模型在多跳推理中的表现。

技术框架:研究采用了严格的自然语言设置,分离了在预训练中接触组合上下文的个体与未接触的个体,分析其对推理能力的影响。主要模块包括数据增强、模型训练和性能评估。

关键创新:最重要的创新在于确认了组合上下文的暴露是隐式多跳推理的必要条件,强调了预训练阶段的设计对模型能力的深远影响。

关键设计:在实验中,采用了九种不同的数据增强格式,设计了特定的损失函数以优化模型在多跳推理上的表现,并通过对比实验验证了不同个体的推理能力差异。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,尽管模型在1-hop推理上达到97%的准确率,但在多跳推理中仍存在显著差距。通过数据增强,暴露于组合上下文的个体在未见问题上的表现显著提升,验证了预训练阶段的重要性。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、对话系统和知识图谱推理等。通过改善模型的多跳推理能力,可以提升这些系统在复杂查询中的表现,进而增强用户体验和信息获取效率。未来,该方法可能推动更高效的知识表示和推理技术的发展。

📄 摘要(原文)

Large Language Models fail at implicit multi-hop reasoning: a model answers "When was $X$ born?" and "Who is $Y$'s closest friend?" correctly but fails on "When was $Y$'s closest friend born?" in a single forward pass, even when both facts are perfectly memorized and individually retrievable. We study this failure in a controlled natural language setting with a strict separation between individuals exposed to compositional contexts during pretraining and those that never appear in any such context. We confirm that compositional failure persists even at 97% 1-hop accuracy, establishing the gap as a pretraining failure rather than a knowledge absence. We propose and test nine data-centric augmentation formats and find that compositional pretraining transfers to unseen questions for exposed individuals, but never to individuals absent from compositional pretraining, suggesting that exposure to compositional contexts during pretraining is a necessary condition for implicit multi-hop reasoning.