Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity

📄 arXiv: 2509.24836v3 📥 PDF

作者: Zhen Bi, Zhenlin Hu, Jinnan Yang, Mingyang Chen, Cheng Deng, Yida Xue, Zeyu Yang, Qing Shen, Zhenfang Liu, Kang Zhao, Ningyu Zhang, Jungang Lou

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-29 (更新: 2025-10-04)


💡 一句话要点

提出数据推理强度(DRI)指标,优化训练数据以提升LLM逻辑推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 数据推理强度 训练数据优化 认知能力

📋 核心要点

  1. 现有方法侧重于数据格式转换,忽略了训练样本内在的逻辑推理复杂性,限制了LLM推理能力的提升。
  2. 论文提出数据推理强度(DRI)指标,量化样本的逻辑推理复杂度,并以此为基础优化训练数据。
  3. 实验表明,该方法显著提高了LLM的性能和泛化能力,验证了提升数据推理复杂度的有效性。

📝 摘要(中文)

大型语言模型(LLM)的最新进展表明,训练数据的结构和质量对于塑造推理行为至关重要。然而,现有方法大多侧重于转换数据格式,而忽略了训练样本内部的推理复杂性,导致数据的推理潜力未被充分挖掘和利用。本文认为,LLM的逻辑推理性能受到训练数据的潜力和模型的认知能力的共同约束。为了使这种关系可衡量,我们引入了数据推理强度(DRI),这是一种通过分解和聚合样本的逻辑结构来量化其潜在逻辑推理复杂性的新指标。这使我们能够分析当前LLM如何利用逻辑推理信号,并识别相对于数据潜力的性能差距。基于此,我们引入了一种重认知优化策略,系统地增强训练数据的逻辑推理强度。我们的方法不是增加数据量,而是重新优化现有样本,以更好地与LLM的逻辑推理边界对齐。大量实验表明,我们的方法在以数据为中心的策略上显著提高了性能和泛化能力。我们进一步在强化学习框架下验证了我们的方法。结果表明,在数据中优先考虑推理复杂性,而不是纯粹的规模或表面形式,对于充分发挥LLM的认知潜力至关重要。

🔬 方法详解

问题定义:现有的大语言模型训练方法,在提升逻辑推理能力时,往往侧重于增加数据量或者改变数据格式,而忽略了训练数据本身所蕴含的逻辑推理复杂程度。这导致模型无法充分利用训练数据中潜在的逻辑推理信号,限制了其逻辑推理能力的上限。因此,需要一种方法来量化训练数据的逻辑推理复杂性,并以此为指导来优化训练数据,从而更有效地提升LLM的逻辑推理能力。

核心思路:论文的核心思路是提出“数据推理强度”(Data Reasoning Intensity, DRI)这一概念,用于量化训练样本中蕴含的逻辑推理复杂度。通过分析和分解样本的逻辑结构,并对这些结构进行聚合,可以得到一个能够反映样本推理难度的指标。然后,利用这个指标来指导训练数据的优化,即通过调整样本的逻辑结构,提高其DRI值,从而使模型能够学习到更强的逻辑推理能力。

技术框架:该方法主要包含两个阶段:DRI计算阶段和数据优化阶段。在DRI计算阶段,首先需要对训练样本进行逻辑结构的分解,例如识别样本中包含的逻辑规则、前提和结论等。然后,根据这些逻辑结构的复杂程度和相互关系,计算出样本的DRI值。在数据优化阶段,根据DRI值对训练样本进行调整,例如增加样本中逻辑规则的数量、提高逻辑结构的嵌套深度等,从而提高样本的DRI值。优化后的训练数据被用于训练LLM,以提升其逻辑推理能力。此外,论文还在强化学习框架下验证了该方法的有效性。

关键创新:该论文最重要的技术创新点在于提出了数据推理强度(DRI)这一概念,并将其用于指导训练数据的优化。与以往侧重于数据量或格式的方法不同,该方法关注的是数据本身所蕴含的逻辑推理复杂性。通过量化这种复杂性,可以更有效地提升LLM的逻辑推理能力。这种以数据内在逻辑结构为导向的优化方法,为LLM的训练提供了一种新的思路。

关键设计:DRI的计算方式是关键设计之一,具体如何分解逻辑结构并进行聚合,论文中应该有详细描述。数据优化阶段,如何根据DRI值调整样本的逻辑结构,也需要具体的设计策略,例如采用何种算法来增加逻辑规则、提高嵌套深度等。此外,在强化学习框架下,如何设计奖励函数,以鼓励模型生成具有更高DRI值的样本,也是一个重要的技术细节。

📊 实验亮点

实验结果表明,通过DRI优化后的训练数据,能够显著提升LLM的逻辑推理性能和泛化能力。具体提升幅度以及对比的基线模型需要在论文中查找。该方法在强化学习框架下的验证也进一步证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于需要逻辑推理能力的LLM应用场景,例如智能问答、知识图谱推理、代码生成等。通过优化训练数据,可以提升LLM在这些领域的性能和可靠性,使其能够更好地理解和处理复杂的逻辑关系,从而实现更智能化的应用。

📄 摘要(原文)

Recent advances in large language models (LLMs) highlight the importance of training data structure and quality in shaping reasoning behavior. However, most existing approaches focus on transforming data formats while neglecting the internal reasoning complexity of training samples, leaving the reasoning potential of data under-explored and underutilized. In this work, we posit that LLM logical reasoning performance is jointly constrained by the potential of the training data and the cognitive capacity of the model. To make this relationship measurable, we introduce Data Reasoning Intensity (DRI), a novel metric that quantifies the latent logical reasoning complexity of samples by decomposing and aggregating their logical structures. This allows us to analyze how well current LLMs utilize logical reasoning signals and identify performance gaps relative to data potential. Based on this insight, we introduce a re-cognizing optimization strategy that systematically enhances the logical reasoning intensity of training data. Rather than increasing data volume, our method re-optimizes existing samples to better align with the LLM's logical reasoning boundary. Extensive experiments show that our approach significantly improves performance and generalization over data-centric strategies. We further validate our method under a reinforcement learning framework. Our results indicate that prioritizing reasoning complexity in data rather than sheer scale or superficial form is essential to realizing LLMs' full cognitive potential.