eMoT: evolving Memory-of-Thought via Symbolic Anchoring and Memory Corrosion

📄 arXiv: 2606.02054v1 📥 PDF

作者: Xiang Li, Jiwei Wei, Ke Liu, Yitong Qin, Jinyu Guo, Malu Zhang, Peng Wang, Yang Yang

分类: cs.AI

发布日期: 2026-06-01


💡 一句话要点

提出eMoT框架,通过演进式记忆和符号锚定提升LLM多步推理的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多步推理 大型语言模型 记忆演进 符号锚定 推理可靠性

📋 核心要点

  1. 现有LLM在多步推理中存在幻觉和数值计算不足的问题,原因是推理被视为一次性过程,缺乏对成功逻辑的保留和改进。
  2. eMoT框架将推理轨迹视为动态演进的记忆,通过记忆腐蚀、符号锚定和一致性细化来稳定多步推理过程。
  3. 实验结果表明,eMoT在多个推理基准测试中显著提高了准确性和一致性,尤其在24点游戏中达到100%准确率。

📝 摘要(中文)

大型语言模型(LLMs)在多步推理任务中表现出色,但其可靠性受到幻觉和数值计算能力不足等问题的限制。这些问题源于标准模型将推理视为一次性的生成过程,而非保留和改进程序逻辑。为了解决这些挑战,我们提出了eMoT(evolving Memory-of-Thought),一个统一的框架,通过将推理轨迹视为动态演进的记忆而非静态模板来稳定多步推理。该框架主要由三个相互连接的模块组成:(i)记忆腐蚀机制,强化高实用性的推理结构,同时逐渐衰减不常用的结构;(ii)符号锚定引擎,利用Python进行确定性计算,类似于人类使用计算器;(iii)一致性驱动的细化过程,使神经推理与符号结果对齐,减少逻辑差异的累积。在多个推理基准测试中,eMoT在标准Chain-of-Thought和结构化推理基线之上提高了准确性和解决方案的一致性。在传统的24点游戏中,eMoT实现了100%的准确率,超过基线高达17.6%。在数学任务GSM8K、ASDiv、SVAMP和MGSM上的评估进一步表明,eMoT在多步数学推理方面取得了持续的提升。我们的评估表明,即使使用具有受限基线能力的轻量级骨干模型,也能实现卓越的性能。与依赖大规模模型的替代方法相比,我们的结果表明,性能的提升主要由eMoT框架的推理控制驱动,而不是单纯的模型规模。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多步推理任务中存在的幻觉问题和数值计算能力不足的问题。现有方法将推理过程视为一次性的生成,缺乏对有效推理路径的记忆和优化,导致错误累积和结果不一致。

核心思路:eMoT的核心思路是将推理过程视为一个动态演进的记忆,通过不断地学习、强化和修正推理路径,从而提高推理的可靠性和准确性。框架借鉴了人类解决问题的习惯,即利用外部工具(如计算器)进行精确计算,并不断反思和改进推理过程。

技术框架:eMoT框架包含三个主要模块:记忆腐蚀机制、符号锚定引擎和一致性驱动的细化过程。记忆腐蚀机制用于强化高实用性的推理结构,同时逐渐衰减不常用的结构。符号锚定引擎利用Python进行确定性计算,为推理过程提供精确的数值计算能力。一致性驱动的细化过程则用于对齐神经推理和符号结果,减少逻辑差异的累积。整体流程是,LLM首先进行初步推理,然后利用符号锚定引擎进行验证和修正,最后通过一致性驱动的细化过程更新记忆,从而实现推理能力的持续提升。

关键创新:eMoT的关键创新在于将推理过程视为动态记忆的演进,并引入了符号锚定机制。与传统的Chain-of-Thought方法相比,eMoT不是简单地生成推理链,而是通过记忆腐蚀和一致性细化来优化推理路径。符号锚定机制则为推理过程提供了精确的数值计算能力,有效避免了LLM在数值计算方面的固有缺陷。

关键设计:记忆腐蚀机制的具体实现方式未知,但可以推测其可能采用某种形式的注意力机制或强化学习方法,根据推理路径的成功率和使用频率来调整其权重。符号锚定引擎直接调用Python解释器执行计算,保证了计算的准确性。一致性驱动的细化过程可能采用某种形式的对比学习或强化学习方法,鼓励神经推理的结果与符号计算的结果保持一致。具体的损失函数和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

eMoT在多个推理基准测试中取得了显著的性能提升。在24点游戏中,eMoT实现了100%的准确率,超过基线高达17.6%。在数学任务GSM8K、ASDiv、SVAMP和MGSM上的评估也显示出持续的性能提升。值得注意的是,eMoT在轻量级模型上也能取得优异表现,表明其性能提升主要源于框架本身的推理控制能力,而非单纯依赖模型规模。

🎯 应用场景

eMoT框架可应用于需要高可靠性和精确性的多步推理任务,例如数学问题求解、科学推理、金融分析等。该框架通过提高LLM的推理能力,有望在自动化决策、智能客服、教育辅导等领域发挥重要作用,并降低因推理错误带来的风险。

📄 摘要(原文)

While Large Language Models (LLMs) achieve impressive performance on multi-step reasoning tasks, their reliability is persistently hindered by critical limitations such as unconstrained hallucinations and poor numerical computation. Fundamentally, these issues arise because standard models treat reasoning as a transient, one-off generation process rather than retaining and refining successful procedural logic. To address these challenges, we propose eMoT (evolving Memory-of-Thought), a unified framework that stabilizes multi-step reasoning by treating reasoning trajectories as dynamic, evolving memories rather than static templates. The framework primarily consists of three interconnected modules: (i) a memory corrosion mechanism that reinforces high-utility reasoning structures while gradually decaying less frequent ones; (ii) a symbolic anchoring engine that utilizes Python for deterministic computation, much like a human uses a calculator; and (iii) a consistency-driven refinement process that aligns neural inference with symbolic outcomes, reducing the accumulation of logical discrepancies. Across multiple reasoning benchmarks, eMoT improves accuracy and solution consistency over standard Chain-of-Thought and structured reasoning baselines.On the traditional task Game of 24, eMoT achieves 100% accuracy, surpassing the baseline by up to 17.6%. Evaluations on mathematical task GSM8K, ASDiv, SVAMP, and MGSM further show consistent gains in multi-step mathematical reasoning. In our evaluation, we achieve superior performance despite utilizing a lightweight backbone model with constrained baseline capabilities. Compared to alternative methods that rely on massively scaled models, our results demonstrate that the performance gains are fundamentally driven by the eMoT framework's reasoning control rather than sheer model size.