Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

📄 arXiv: 2507.16784v1 📥 PDF

作者: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass

分类: cs.CL

发布日期: 2025-07-22

备注: Research preview


💡 一句话要点

提出线程推理模型TIM,突破LLM上下文长度限制,实现长程推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程推理 上下文长度限制 大型语言模型 递归分解 线程推理模型

📋 核心要点

  1. 现有大型语言模型受限于上下文长度,导致长程推理任务中精度和效率下降。
  2. 论文提出线程推理模型TIM和推理运行时TIMRUN,通过递归分解和子任务修剪,突破上下文限制。
  3. 实验表明,该系统在长程推理和多跳工具调用任务中表现出色,并保持高推理吞吐量。

📝 摘要(中文)

为了突破大型语言模型(LLM)的上下文长度限制,解决推理精度和效率瓶颈,我们提出了线程推理模型(TIM),这是一系列经过训练用于递归和分解问题求解的LLM。同时,我们提出了TIMRUN,一个推理运行时,支持在单个语言模型推理中进行超出上下文限制的长期结构化推理和多跳工具调用,克服了输出限制、位置嵌入约束和GPU内存瓶颈。该性能的实现方式是将自然语言建模为由长度和深度衡量的推理树,而不是线性序列。推理树由任务、思想、递归子任务和基于Schroeder等人(2025)提出的概念的结论组成。在生成过程中,我们维护一个工作记忆,仅保留最相关的上下文token的键值状态,这些token由基于规则的子任务修剪机制选择,从而能够在整个推理过程中重用位置嵌入和GPU内存页。实验结果表明,我们的系统保持了高推理吞吐量,即使在操作高达90%的GPU内存中的KV缓存时也是如此。它还在数学任务上实现了准确的推理,并处理了需要长期推理和多跳工具使用的信息检索挑战。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在处理需要长程推理的任务时,受到上下文长度限制的严重制约。这意味着模型无法有效利用远距离的信息,导致推理精度下降,并且需要将长序列分割成多个片段处理,效率较低。此外,GPU内存也成为瓶颈,限制了模型能够处理的序列长度。

核心思路:论文的核心思路是将推理过程建模成树状结构,而非传统的线性序列。每个节点代表一个任务或子任务,通过递归分解将复杂问题拆解为更小的、易于处理的子问题。同时,引入工作记忆机制,只保留与当前任务最相关的上下文信息,从而减少内存占用,并允许重复利用位置嵌入。

技术框架:整体框架由线程推理模型(TIM)和推理运行时(TIMRUN)组成。TIM是经过专门训练的LLM,具备递归分解和问题求解能力。TIMRUN负责管理推理过程,包括任务调度、子任务生成、上下文管理和工具调用。推理过程从根任务开始,递归地分解为子任务,每个子任务由TIM执行,并将结果传递给父任务。TIMRUN负责维护一个工作记忆,存储当前任务相关的上下文信息,并通过子任务修剪机制,动态地选择和更新工作记忆中的内容。

关键创新:最重要的创新点在于将推理过程建模为树状结构,并引入了基于规则的子任务修剪机制。这种树状结构能够更好地组织和管理长程推理过程,避免了线性序列的上下文长度限制。子任务修剪机制能够动态地选择和更新工作记忆中的内容,从而减少内存占用,并提高推理效率。与现有方法相比,该方法能够处理更长的序列,并实现更准确的推理。

关键设计:论文中使用了基于规则的子任务修剪机制,用于选择和更新工作记忆中的上下文信息。具体的规则设计未知,但其目标是保留与当前任务最相关的token的键值状态。此外,论文还提到了Schroeder等人(2025)提出的概念,但具体细节未知。损失函数和网络结构等技术细节也未在摘要中详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该系统即使在操作高达90%的GPU内存中的KV缓存时,也能保持高推理吞吐量。此外,该系统在数学任务上实现了准确的推理,并成功处理了需要长期推理和多跳工具使用的信息检索挑战。这些结果表明,该方法能够有效突破LLM的上下文长度限制,并在实际应用中取得显著的性能提升。

🎯 应用场景

该研究成果可应用于需要长程推理和多跳工具调用的各种领域,例如复杂问题求解、知识图谱推理、智能客服、自动化报告生成等。通过突破LLM的上下文长度限制,该方法能够处理更复杂的任务,并提供更准确、更高效的解决方案。未来,该技术有望推动人工智能在各个领域的应用。

📄 摘要(原文)

To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.