CogMem: A Cognitive Memory Architecture for Sustained Multi-Turn Reasoning in Large Language Models

📄 arXiv: 2512.14118v1 📥 PDF

作者: Yiran Zhang, Jincheng Hu, Mark Dras, Usman Naseem

分类: cs.CL

发布日期: 2025-12-16

备注: underreview


💡 一句话要点

CogMem:一种认知记忆架构,用于大型语言模型中持续的多轮推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多轮推理 认知架构 长期记忆 注意力机制

📋 核心要点

  1. 现有LLM在多轮对话中存在推理偏差、任务漂移、幻觉等问题,且上下文长度受限,计算成本高昂。
  2. CogMem架构模拟认知过程,通过长期记忆、直接访问记忆和注意力焦点机制,实现持续迭代推理。
  3. 实验表明,CogMem能有效缓解推理失败,控制上下文增长,提升多轮推理一致性,更接近人类推理。

📝 摘要(中文)

大型语言模型(LLM)擅长单轮推理,但在扩展的多轮交互中,准确性和连贯性通常会下降。TurnBench等最新评估突出了重复出现的失败模式——推理偏差、任务漂移、幻觉、过度自信和记忆衰退。目前的方法通常附加完整的对话历史,导致无限制的上下文增长、更高的计算成本和降低的推理效率。我们介绍CogMem,一种受认知启发、记忆增强的LLM架构,它通过结构化的持久记忆来支持持续的迭代推理。CogMem包含三个层:长期记忆(LTM),用于巩固跨会话的推理策略;直接访问(DA)记忆,用于维护会话级别的笔记并检索相关的长期记忆;以及注意力焦点(FoA)机制,用于在每一轮动态地重建简洁的、与任务相关的上下文。在TurnBench上的实验表明,这种分层设计减轻了推理失败,控制了上下文增长,并提高了扩展推理链的一致性,从而使LLM中的推理更可靠、更像人类。

🔬 方法详解

问题定义:大型语言模型在多轮对话中表现出推理能力下降的问题,具体表现为推理偏差、任务漂移、幻觉、过度自信和记忆衰退。现有方法简单地将所有对话历史拼接起来作为上下文,导致上下文长度无限制增长,计算成本增加,并且影响推理效率。

核心思路:CogMem的核心思路是借鉴人类认知架构,将记忆分为长期记忆(LTM)和直接访问记忆(DA),并通过注意力焦点(FoA)机制动态构建上下文。LTM用于存储跨会话的通用推理策略,DA用于存储当前会话的笔记,FoA则负责从LTM和DA中检索相关信息,构建简洁有效的上下文。这样既能保留关键信息,又能避免上下文冗余。

技术框架:CogMem架构包含三个主要模块:1) 长期记忆(LTM):存储跨会话的推理策略,可以理解为一个知识库。2) 直接访问记忆(DA):存储当前会话的笔记,用于快速访问当前任务相关的信息。3) 注意力焦点(FoA):根据当前输入,从LTM和DA中检索相关信息,并构建简洁的上下文,输入到LLM进行推理。整个流程是迭代的,每一轮推理的结果都会更新DA,并可能更新LTM。

关键创新:CogMem的关键创新在于其分层记忆结构和动态上下文构建机制。与现有方法直接拼接上下文不同,CogMem通过LTM和DA分离长期知识和短期信息,并通过FoA动态选择相关信息,从而实现了更高效的上下文管理和更可靠的推理。这种架构更接近人类的认知过程,能够更好地处理多轮对话中的复杂推理任务。

关键设计:LTM可以使用向量数据库实现,存储推理策略的向量表示。DA可以使用简单的键值对存储,存储当前会话的笔记。FoA可以使用注意力机制实现,根据当前输入计算LTM和DA中每个条目的相关性,并选择最相关的条目构建上下文。具体参数设置和损失函数取决于具体的LLM和任务,需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在TurnBench基准测试中,CogMem架构在多轮推理任务上表现出显著的优势,有效缓解了推理失败、上下文增长等问题。实验结果表明,CogMem能够提高LLM在长程对话中的一致性和准确性,更接近人类的推理能力。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

CogMem架构可应用于需要持续多轮推理的各种场景,例如智能客服、对话式问答系统、代码生成助手等。通过提升LLM在多轮对话中的一致性和准确性,可以显著改善用户体验,并扩展LLM的应用范围。未来,CogMem还可以与其他技术结合,例如知识图谱、强化学习等,进一步提升LLM的推理能力。

📄 摘要(原文)

Large language models (LLMs) excel at single-turn reasoning but often lose accuracy and coherence over extended, multi-turn interactions. Recent evaluations such as TurnBench highlight recurring failure modes-reasoning bias, task drift, hallucination, overconfidence, and memory decay. Current approaches typically append full conversational histories, causing unbounded context growth, higher computational costs, and degraded reasoning efficiency. We introduce CogMem, a cognitively inspired, memory-augmented LLM architecture that supports sustained iterative reasoning through structured, persistent memory. CogMem incorporates three layers: a Long-Term Memory (LTM) that consolidates cross-session reasoning strategies; a Direct Access (DA) memory that maintains session-level notes and retrieves relevant long-term memories; and a Focus of Attention (FoA) mechanism that dynamically reconstructs concise, task-relevant context at each turn. Experiments on TurnBench show that this layered design mitigates reasoning failures, controls context growth, and improves consistency across extended reasoning chains, moving toward more reliable, human-like reasoning in LLMs.