Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data?
作者: Yutong Yin, Zhaoran Wang
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-01-27 (更新: 2025-10-11)
备注: Accepted by ICLR 2025
💡 一句话要点
提出FTCT任务,验证Transformer在分离知识间进行组合推理的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合推理 Transformer 知识图谱 因果推理 Chain-of-Thought FTCT任务 分离知识 泛化能力
📋 核心要点
- 现有方法在组合推理方面存在不足,难以将分散的知识片段进行有效整合。
- 论文提出FTCT任务,旨在通过训练Transformer学习潜在的可泛化程序,从而实现组合推理。
- 实验表明,少量样本的Chain-of-Thought提示能有效提升Transformer在FTCT任务上的组合推理能力。
📝 摘要(中文)
人类通过整合来自不同来源的知识来展现卓越的组合推理能力。例如,如果一个人从一个来源学习到(B = f(A)),从另一个来源学习到(C = g(B)),即使没有同时遇到(ABC),他们也能推断出(C=g(B)=g(f(A))),这展示了人类智能的泛化能力。本文引入了一个合成学习任务“FTCT”(训练时片段化,测试时链式化),以验证Transformer在复制这种技能方面的潜力,并解释其内在机制。在训练阶段,数据由来自整体因果图的分离知识片段组成。在测试阶段,Transformer必须通过整合这些片段来推断完整的因果图轨迹。我们的研究结果表明,少量样本的Chain-of-Thought提示使Transformer能够在FTCT上执行组合推理,通过揭示片段的正确组合,即使这些组合在训练数据中不存在。此外,组合推理能力的出现与模型复杂性和训练-测试数据相似性密切相关。我们从理论和经验两方面提出,Transformer从训练中学习到一种潜在的可泛化程序,从而在测试期间实现有效的组合推理。
🔬 方法详解
问题定义:论文旨在解决Transformer模型是否能够像人类一样,通过连接训练数据中分离的知识片段来进行组合推理的问题。现有方法在处理此类问题时,通常需要大量的联合训练数据,泛化能力较弱,难以应对训练集中未出现的知识组合。
核心思路:论文的核心思路是设计一个合成学习任务FTCT,该任务将知识图谱的因果关系在训练阶段进行片段化,而在测试阶段要求模型将这些片段连接起来,从而考察模型是否能够学习到潜在的组合推理能力。通过这种方式,可以更清晰地评估模型在处理分离知识时的推理能力。
技术框架:FTCT任务包含训练和测试两个阶段。在训练阶段,模型接触到的是知识图谱中分离的因果关系片段,例如A->B和B->C,但不会同时看到A->B->C。在测试阶段,模型需要根据训练阶段学到的知识片段,推断出完整的因果链A->B->C。论文还使用了Chain-of-Thought (CoT) prompting来引导模型进行推理。
关键创新:该论文的关键创新在于提出了FTCT任务,这是一种新颖的评估组合推理能力的方法。与以往的研究不同,FTCT任务更加关注模型在处理分离知识片段时的推理能力,而不是仅仅关注模型在完整知识图谱上的表现。此外,论文还探讨了模型复杂性和训练-测试数据相似性对组合推理能力的影响。
关键设计:论文中,Transformer模型的具体架构和参数设置未详细说明,属于通用Transformer模型。关键在于训练数据的构建方式,即如何将知识图谱进行片段化,以及如何设计测试数据,使得模型必须进行组合推理才能得到正确答案。Chain-of-Thought prompting的使用也至关重要,它引导模型逐步推理,从而更容易发现片段之间的联系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,少量样本的Chain-of-Thought prompting能够显著提升Transformer在FTCT任务上的组合推理能力。即使在训练数据中没有出现完整的因果链,模型也能通过连接分离的知识片段进行推理。此外,实验还发现,模型复杂性和训练-测试数据相似性与组合推理能力呈正相关。
🎯 应用场景
该研究成果可应用于知识图谱推理、问答系统、智能对话等领域。通过提升模型在分离知识间的组合推理能力,可以使模型更好地理解复杂问题,并给出更准确的答案。例如,在医疗诊断领域,医生可以利用该技术将分散的医学知识片段进行整合,从而更准确地诊断疾病。
📄 摘要(原文)
Humans exhibit remarkable compositional reasoning by integrating knowledge from various sources. For example, if someone learns ( B = f(A) ) from one source and ( C = g(B) ) from another, they can deduce ( C=g(B)=g(f(A)) ) even without encountering ( ABC ) together, showcasing the generalization ability of human intelligence. In this paper, we introduce a synthetic learning task, "FTCT" (Fragmented at Training, Chained at Testing), to validate the potential of Transformers in replicating this skill and interpret its inner mechanism. In the training phase, data consist of separated knowledge fragments from an overall causal graph. During testing, Transformers must infer complete causal graph traces by integrating these fragments. Our findings demonstrate that few-shot Chain-of-Thought prompting enables Transformers to perform compositional reasoning on FTCT by revealing correct combinations of fragments, even if such combinations were absent in the training data. Furthermore, the emergence of compositional reasoning ability is strongly correlated with the model complexity and training-testing data similarity. We propose, both theoretically and empirically, that Transformers learn an underlying generalizable program from training, enabling effective compositional reasoning during testing.