Shattered Compositionality: Counterintuitive Learning Dynamics of Transformers for Arithmetic
作者: Xingyu Zhao, Darsh Sharma, Rheeya Uppaal, Yiqiao Zhong
分类: cs.LG, cs.AI
发布日期: 2026-01-30
备注: 33 pages, 27 figures
💡 一句话要点
揭示Transformer在算术任务中“破碎的组合性”学习现象,挑战传统认知
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 Transformer 算术任务 组合性 学习动态
📋 核心要点
- 大型语言模型在复杂任务中表现出与人类不同的技能组合方式,现有方法难以解释其内在学习机制。
- 该研究通过在算术任务中训练Transformer,揭示了模型学习技能的顺序与人类直觉不符,呈现“破碎的组合性”。
- 实验表明,这种“破碎的组合性”源于模型对训练数据的相关性匹配,而非因果或程序组合,且无法通过模型缩放或草稿纸推理缓解。
📝 摘要(中文)
大型语言模型(LLMs)即使在规模化后也经常表现出意想不到的错误或非预期行为。虽然最近的研究揭示了LLMs在技能组合方面与人类的差异,但技能组合的学习动态以及非人类行为的根本原因仍然难以捉摸。本研究通过在合成算术任务上训练transformers来研究学习动态的机制。通过大量的消融实验和细粒度的诊断指标,我们发现transformers并不能可靠地按照类似人类的顺序规则来构建技能组合。相反,它们通常以相反的顺序或并行地获得技能,这导致了意想不到的混合错误,尤其是在分布偏移下——我们称之为破碎的组合性。为了解释这些行为,我们提供的证据表明,与训练数据的相关性匹配,而不是因果或程序组合,塑造了学习动态。我们进一步表明,破碎的组合性存在于现代LLMs中,并且不能通过纯粹的模型缩放或基于草稿纸的推理来缓解。我们的结果揭示了模型学习行为与期望的技能组合之间的根本不匹配,这对推理可靠性、分布外鲁棒性和对齐具有影响。
🔬 方法详解
问题定义:现有大型语言模型在执行复杂算术任务时,虽然在某些情况下表现出色,但其学习和组合技能的方式与人类直觉存在偏差,容易出现意想不到的错误。现有方法难以解释这种非人类行为的根本原因,以及模型如何学习和组合不同的算术技能。
核心思路:该论文的核心思路是通过控制训练数据和任务的复杂度,深入研究Transformer模型在学习算术技能时的学习动态。通过细粒度的诊断指标和消融实验,揭示模型学习技能的顺序和方式,并分析其与人类学习方式的差异。核心在于发现模型并非按照人类的顺序规则构建技能组合,而是倾向于基于数据相关性进行学习。
技术框架:该研究的技术框架主要包括以下几个部分:1) 构建合成算术任务数据集,用于训练Transformer模型;2) 设计细粒度的诊断指标,用于评估模型在不同算术技能上的掌握程度;3) 进行消融实验,分析不同因素对模型学习动态的影响;4) 在大型语言模型上验证“破碎的组合性”现象。整体流程是从简单到复杂,逐步揭示模型学习动态的本质。
关键创新:该论文最重要的技术创新点在于提出了“破碎的组合性”这一概念,即Transformer模型在学习算术技能时,并非按照人类的顺序规则进行组合,而是以一种非直观、甚至相反的顺序学习技能。这种学习方式导致模型在分布偏移下容易出现混合错误,从而影响其泛化能力。与现有方法相比,该研究更关注模型学习动态的微观层面,而非仅仅关注最终的性能指标。
关键设计:在数据集方面,论文设计了多种算术任务,包括加法、减法、乘法等,并控制了任务的复杂度。在模型方面,使用了标准的Transformer架构,并进行了不同规模的实验。在损失函数方面,使用了交叉熵损失函数。关键在于设计了细粒度的诊断指标,用于评估模型在不同算术技能上的掌握程度,例如,分别评估模型对个位数加法、十位数加法、进位等技能的掌握程度。
🖼️ 关键图片
📊 实验亮点
研究发现,Transformer模型在算术任务中表现出“破碎的组合性”,即学习技能的顺序与人类直觉相反。例如,模型可能先学会处理进位,再学会个位数加法。实验表明,这种现象无法通过简单地增加模型规模或使用草稿纸推理来缓解,说明其是Transformer架构本身固有的问题。该研究为理解LLM的内部机制提供了新的视角。
🎯 应用场景
该研究成果对于提升大型语言模型在复杂推理任务中的可靠性和鲁棒性具有重要意义。通过理解模型学习动态的本质,可以设计更有效的训练方法和模型架构,从而提高模型在分布外数据上的泛化能力。此外,该研究也为模型对齐问题提供了新的视角,有助于开发更符合人类直觉和价值观的AI系统。
📄 摘要(原文)
Large language models (LLMs) often exhibit unexpected errors or unintended behavior, even at scale. While recent work reveals the discrepancy between LLMs and humans in skill compositions, the learning dynamics of skill compositions and the underlying cause of non-human behavior remain elusive. In this study, we investigate the mechanism of learning dynamics by training transformers on synthetic arithmetic tasks. Through extensive ablations and fine-grained diagnostic metrics, we discover that transformers do not reliably build skill compositions according to human-like sequential rules. Instead, they often acquire skills in reverse order or in parallel, which leads to unexpected mixing errors especially under distribution shifts--a phenomenon we refer to as shattered compositionality. To explain these behaviors, we provide evidence that correlational matching to the training data, rather than causal or procedural composition, shapes learning dynamics. We further show that shattered compositionality persists in modern LLMs and is not mitigated by pure model scaling or scratchpad-based reasoning. Our results reveal a fundamental mismatch between a model's learning behavior and desired skill compositions, with implications for reasoning reliability, out-of-distribution robustness, and alignment.