Dynamical Systems Theory Behind a Hierarchical Reasoning Model
作者: Vasiliy A. Es'kin, Mikhail E. Smorkalov
分类: cs.AI, cs.LG, math.DS
发布日期: 2026-03-24
💡 一句话要点
提出基于连续动力系统的Contraction Mapping Model,解决复杂推理任务中递归网络训练不稳定的问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 递归推理 动力系统 神经常微分方程 参数效率 算法推理
📋 核心要点
- 现有大型语言模型在复杂推理任务中表现不佳,递归网络训练不稳定且易发生表征崩溃。
- 提出Contraction Mapping Model (CMM),将离散递归推理转化为连续动力系统,保证潜在状态收敛。
- 实验表明,CMM在推理任务上超越现有模型,即使在极小参数量下仍保持高性能。
📝 摘要(中文)
当前的大型语言模型(LLMs)主要依赖于线性序列生成和庞大的参数量,但在复杂的算法推理方面表现不佳。虽然最近的推理架构,如分层推理模型(HRM)和微型递归模型(TRM)表明,紧凑的递归网络可以处理这些任务,但它们的训练动态通常缺乏严格的数学保证,导致不稳定和表征崩溃。我们提出了收缩映射模型(CMM),这是一种新颖的架构,将离散递归推理重新表述为连续神经常微分和随机微分方程(NODEs/NSDEs)。通过显式地强制潜在相点收敛到稳定的平衡状态,并利用超球面排斥损失来减轻特征崩溃,CMM提供了一个数学上合理且高度稳定的推理引擎。在Sudoku-Extreme基准测试中,一个5M参数的CMM实现了93.7%的最先进精度,优于27M参数的HRM(55.0%)和5M参数的TRM(87.4%)。值得注意的是,即使被积极压缩到仅0.26M参数的超小规模,CMM仍保持了强大的预测能力,在Sudoku-Extreme上实现了85.4%的准确率,在Maze基准测试中实现了82.2%的准确率。这些结果为极端的参数效率建立了一个新的前沿,证明了数学上严谨的潜在动态可以有效地取代人工推理中的暴力缩放。
🔬 方法详解
问题定义:现有的大型语言模型在复杂算法推理任务中表现不佳,而现有的递归推理模型(如HRM和TRM)虽然在一定程度上解决了这个问题,但其训练过程缺乏严格的数学保证,容易出现训练不稳定和表征崩溃的问题。因此,需要一种更稳定、更高效的推理模型。
核心思路:论文的核心思路是将离散的递归推理过程转化为连续的动力系统,具体来说,使用神经常微分方程(NODEs)或神经随机微分方程(NSDEs)来建模推理过程中的状态演化。通过控制动力系统的性质,例如强制状态收敛到稳定平衡点,可以保证推理过程的稳定性和可靠性。这种方法避免了传统递归模型中由于梯度消失或爆炸导致的训练问题。
技术框架:CMM模型的整体架构包括一个输入编码器、一个基于NODE/NSDE的动态系统建模模块和一个输出解码器。输入编码器将输入问题(例如数独谜题)编码成一个初始状态向量。动态系统建模模块使用NODE/NSDE来模拟推理过程,随着时间的推移,状态向量不断演化。最后,输出解码器将最终状态向量解码成问题的答案。关键在于NODE/NSDE模块的设计,它需要保证状态向量能够收敛到一个稳定的平衡点。
关键创新:CMM模型最重要的技术创新点在于将离散的递归推理过程转化为连续的动力系统,并利用动力系统理论来保证推理过程的稳定性。与传统的递归模型相比,CMM模型具有更强的数学基础,可以避免训练不稳定和表征崩溃的问题。此外,CMM模型还引入了超球面排斥损失,以进一步提高表征的多样性,防止特征坍塌。
关键设计:CMM的关键设计包括:1) 使用NODE/NSDE来建模状态演化,具体选择哪种形式取决于任务的复杂性和对噪声的容忍度;2) 强制状态向量收敛到稳定平衡点,这可以通过设计合适的NODE/NSDE的向量场来实现;3) 引入超球面排斥损失,鼓励不同的特征向量在超球面上均匀分布,防止特征坍塌;4) 精心设计输入编码器和输出解码器,以确保输入信息能够有效地传递到动态系统建模模块,并且最终状态能够准确地解码成问题的答案。
🖼️ 关键图片
📊 实验亮点
CMM在Sudoku-Extreme基准测试中,仅用5M参数就达到了93.7%的准确率,超越了27M参数的HRM(55.0%)和5M参数的TRM(87.4%)。即使压缩到0.26M参数,CMM仍然在Sudoku-Extreme和Maze基准测试中分别取得了85.4%和82.2%的准确率,展示了极高的参数效率和强大的泛化能力。
🎯 应用场景
该研究成果可应用于需要复杂推理能力的各种场景,例如:自动定理证明、程序合成、机器人规划、以及其他需要进行多步逻辑推理的任务。CMM模型在参数效率方面的优势使其特别适用于资源受限的设备,例如移动设备和嵌入式系统。未来,该模型有望推动人工智能在复杂问题求解方面的能力。
📄 摘要(原文)
Current large language models (LLMs) primarily rely on linear sequence generation and massive parameter counts, yet they severely struggle with complex algorithmic reasoning. While recent reasoning architectures, such as the Hierarchical Reasoning Model (HRM) and Tiny Recursive Model (TRM), demonstrate that compact recursive networks can tackle these tasks, their training dynamics often lack rigorous mathematical guarantees, leading to instability and representational collapse. We propose the Contraction Mapping Model (CMM), a novel architecture that reformulates discrete recursive reasoning into continuous Neural Ordinary and Stochastic Differential Equations (NODEs/NSDEs). By explicitly enforcing the convergence of the latent phase point to a stable equilibrium state and mitigating feature collapse with a hyperspherical repulsion loss, the CMM provides a mathematically grounded and highly stable reasoning engine. On the Sudoku-Extreme benchmark, a 5M-parameter CMM achieves a state-of-the-art accuracy of 93.7 %, outperforming the 27M-parameter HRM (55.0 %) and 5M-parameter TRM (87.4 %). Remarkably, even when aggressively compressed to an ultra-tiny footprint of just 0.26M parameters, the CMM retains robust predictive power, achieving 85.4 % on Sudoku-Extreme and 82.2 % on the Maze benchmark. These results establish a new frontier for extreme parameter efficiency, proving that mathematically rigorous latent dynamics can effectively replace brute-force scaling in artificial reasoning.