Recursive Concept Evolution for Compositional Reasoning in Large Language Models

📄 arXiv: 2602.15725v1 📥 PDF

作者: Sarim Chaudhry

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-02-17


💡 一句话要点

提出递归概念演化(RCE)框架,提升大语言模型在组合推理任务上的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 组合推理 概念演化 表示学习 动态表示

📋 核心要点

  1. 现有大语言模型在组合推理任务中表现不佳,原因是其潜在表示空间无法有效编码所需的抽象概念。
  2. 论文提出递归概念演化(RCE)框架,通过动态生成和演化概念子空间,使模型能够在推理过程中构建新的抽象。
  3. 实验结果表明,RCE在多个组合推理基准测试中显著提升了性能,例如在ARC-AGI-2上提升了12-18个百分点。

📝 摘要(中文)

大型语言模型在许多复杂推理任务上表现出色,但在需要组合推理的基准测试(包括ARC-AGI-2、GPQA、MATH、BBH和HLE)中,其准确性急剧下降。现有方法通过扩展token级别的搜索(如思维链提示、自洽性或强化学习)来改进推理,但它们保持模型的潜在表示空间不变。当所需的抽象未预先编码在此空间中时,性能会崩溃。我们提出递归概念演化(RCE),该框架使预训练语言模型能够在推理过程中修改其内部表示几何。RCE引入动态生成的低秩概念子空间,这些子空间在检测到表示不足时产生,通过最小描述长度准则选择,在协同作用时合并,并通过约束优化进行巩固以保持稳定性。此过程允许模型构建新的抽象,而不是重新组合现有的抽象。我们将RCE与Mistral-7B集成,并在组合推理基准上对其进行评估。RCE在ARC-AGI-2上产生12-18个百分点的增益,在GPQA和BBH上产生8-14个百分点的改进,并在MATH和HLE上持续减少深度引起的误差。

🔬 方法详解

问题定义:论文旨在解决大语言模型在组合推理任务中表现不佳的问题。现有方法主要集中在扩展token级别的搜索,而忽略了模型内部表示空间的局限性。当任务需要模型进行超出其预训练知识的抽象推理时,性能会显著下降。

核心思路:论文的核心思路是在推理过程中动态地修改和演化模型的内部表示空间。通过引入新的概念子空间,模型可以构建新的抽象概念,而不是仅仅依赖于预训练时学到的表示。这种动态调整表示空间的能力使得模型能够更好地适应复杂的组合推理任务。

技术框架:RCE框架包含以下主要阶段:1) 概念子空间生成:当检测到表示不足时,动态生成低秩概念子空间。2) 概念子空间选择:使用最小描述长度(MDL)准则选择最有用的子空间。3) 概念子空间合并:当多个子空间表现出协同作用时,将它们合并以形成更强大的概念表示。4) 概念子空间巩固:通过约束优化,将新概念整合到模型的现有表示空间中,同时保持模型的稳定性。

关键创新:RCE的关键创新在于它允许大语言模型在推理过程中修改其内部表示几何。与现有方法不同,RCE不是简单地重新组合现有的抽象,而是能够构建全新的抽象概念。这种动态表示学习的能力使得模型能够更好地处理需要复杂推理的任务。

关键设计:RCE使用低秩分解来生成概念子空间,这有助于减少计算复杂性并提高效率。最小描述长度(MDL)准则用于选择最有用的子空间,这是一种信息论方法,旨在平衡模型的复杂性和拟合数据的能力。约束优化用于确保新概念的引入不会破坏模型的现有知识,从而保持模型的稳定性。具体参数设置和损失函数细节在论文中进行了详细描述(未知)。

📊 实验亮点

实验结果表明,RCE在多个组合推理基准测试中取得了显著的性能提升。在ARC-AGI-2上,RCE的性能提升了12-18个百分点;在GPQA和BBH上,性能提升了8-14个百分点;在MATH和HLE上,RCE也持续减少了深度引起的误差。这些结果表明,RCE能够有效地提升大语言模型在组合推理任务上的能力。

🎯 应用场景

该研究成果可应用于需要复杂推理和抽象能力的人工智能系统,例如智能问答、科学发现、代码生成等领域。通过提升大语言模型在组合推理任务上的性能,RCE有望推动人工智能在更广泛的应用场景中发挥作用,并解决更具挑战性的问题。

📄 摘要(原文)

Large language models achieve strong performance on many complex reasoning tasks, yet their accuracy degrades sharply on benchmarks that require compositional reasoning, including ARC-AGI-2, GPQA, MATH, BBH, and HLE. Existing methods improve reasoning by expanding token-level search through chain-of-thought prompting, self-consistency, or reinforcement learning, but they leave the model's latent representation space fixed. When the required abstraction is not already encoded in this space, performance collapses. We propose Recursive Concept Evolution (RCE), a framework that enables pretrained language models to modify their internal representation geometry during inference. RCE introduces dynamically generated low-rank concept subspaces that are spawned when representational inadequacy is detected, selected through a minimum description length criterion, merged when synergistic, and consolidated via constrained optimization to preserve stability. This process allows the model to construct new abstractions rather than recombining existing ones. We integrate RCE with Mistral-7B and evaluate it across compositional reasoning benchmarks. RCE yields 12-18 point gains on ARC-AGI-2, 8-14 point improvements on GPQA and BBH, and consistent reductions in depth-induced error on MATH and HLE.