Smooth Reading: Bridging the Gap of Recurrent LLM to Self-Attention LLM on Long-Context Tasks
作者: Kai Liu, Zhan Su, Peijie Dong, Fengran Mo, Jianfei Gao, ShaoTing Zhang, Kai Chen
分类: cs.CL, cs.AI
发布日期: 2025-07-25
💡 一句话要点
提出Smooth Reading方法,提升循环LLM在长文本任务上的性能至与自注意力LLM相当水平
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 循环语言模型 长文本处理 分块推理 迭代摘要 效率优化
📋 核心要点
- 循环LLM因其线性复杂度而具有效率优势,但在长文本任务中受限于固定大小的内存,性能不如自注意力LLM。
- Smooth Reading方法模拟人类阅读,将长文本分块处理并迭代总结,降低内存需求,更适合循环LLM。
- 实验表明,Smooth Reading显著缩小了循环LLM与自注意力LLM在长文本任务上的性能差距,同时保持了效率优势。
📝 摘要(中文)
循环大型语言模型(Recurrent LLMs)以其线性计算复杂度,重新成为自注意力LLMs(Self-Attention LLMs)的高效替代方案,后者具有二次复杂度。然而,由于其有限的固定大小内存,循环LLMs在长文本任务中通常表现不佳。以往的研究主要集中于通过架构创新来增强循环LLMs的内存容量,但这些方法尚未使循环LLMs在长文本任务上达到与自注意力LLMs相当的性能。我们认为,这种限制的出现是因为一次性处理整个上下文不适合循环LLMs。在本文中,我们提出了Smooth Reading,一种受人类阅读策略启发的块状推理方法。Smooth Reading以块为单位处理上下文,并迭代地总结上下文信息,从而降低了内存需求,并使该方法更兼容循环LLMs。我们的实验结果表明,该方法大大缩小了循环LLMs和自注意力LLMs在长文本任务上的性能差距,同时保留了循环LLMs的效率优势。我们的Smooth Reading将SWA-3B-4k(一种循环LLM)的性能从低于自注意力LLMs 5.68%提升到高于3.61%(在LongBench上)。此外,与自注意力LLMs相比,我们的方法在64k上下文时保持了高效率,训练速度快3倍,推理速度快2倍。据我们所知,这是第一个在长文本任务上使用循环LLMs实现与自注意力LLMs相当性能的工作。我们希望我们的方法能够激发该领域未来的研究。为了促进进一步的进展,我们将发布代码和数据集。
🔬 方法详解
问题定义:循环LLM在处理长文本时,由于其固定的内存大小,无法有效捕捉长距离依赖关系,导致性能显著下降。现有方法主要集中于增加循环LLM的内存容量,但效果有限,无法与自注意力LLM的性能相媲美。痛点在于无法有效利用循环LLM的效率优势处理长文本。
核心思路:Smooth Reading的核心思路是借鉴人类阅读习惯,将长文本分割成小块(chunks)进行处理,并迭代地总结上下文信息。这种分块处理的方式降低了对内存的需求,使得循环LLM能够更好地处理长文本,同时保留其高效的特性。通过迭代总结,模型可以逐步理解整个上下文,从而捕捉长距离依赖关系。
技术框架:Smooth Reading的整体流程如下:1) 将输入的长文本分割成多个chunks。2) 循环LLM逐个处理这些chunks。3) 在处理每个chunk之后,模型会生成一个上下文摘要(contextual summary),该摘要包含了当前chunk以及之前所有chunks的信息。4) 下一个chunk的处理会基于当前的上下文摘要。这个过程迭代进行,直到所有chunks都被处理完毕。最终的输出基于最后一个上下文摘要。
关键创新:Smooth Reading的关键创新在于其分块处理和迭代总结的策略。与传统的循环LLM一次性处理整个上下文不同,Smooth Reading将长文本分解成更小的、易于处理的块,并通过迭代的方式逐步构建对整个上下文的理解。这种方法更符合循环LLM的特性,并有效地降低了内存需求。此外,该方法不需要对循环LLM的架构进行修改,可以直接应用于现有的循环LLM。
关键设计:Smooth Reading的关键设计包括chunk的大小、上下文摘要的生成方式以及迭代的次数。Chunk的大小需要根据具体的任务和模型进行调整,过小的chunk可能导致信息丢失,而过大的chunk则可能超出模型的处理能力。上下文摘要的生成可以使用多种方法,例如,可以使用循环LLM的隐藏状态作为摘要,也可以使用额外的摘要生成模块。迭代的次数取决于长文本的长度和模型的性能,可以通过实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Smooth Reading方法显著提升了循环LLM在长文本任务上的性能。例如,在LongBench数据集上,使用Smooth Reading的SWA-3B-4k模型,其性能从低于自注意力LLM 5.68%提升到高于3.61%。此外,该方法还保持了循环LLM的效率优势,在64k上下文时,训练速度比自注意力LLM快3倍,推理速度快2倍。这些结果表明,Smooth Reading方法能够有效地缩小循环LLM与自注意力LLM在长文本任务上的性能差距,同时保持了效率优势。
🎯 应用场景
Smooth Reading方法可以广泛应用于需要处理长文本的场景,例如长篇文档摘要、长对话理解、代码生成、以及需要理解长上下文的问答系统。该方法能够提升循环LLM在这些任务上的性能,使其能够更好地处理长文本,并降低计算成本。未来,该方法可以进一步扩展到其他类型的循环神经网络,并与其他技术相结合,以实现更好的性能。
📄 摘要(原文)
Recently, recurrent large language models (Recurrent LLMs) with linear computational complexity have re-emerged as efficient alternatives to self-attention-based LLMs (Self-Attention LLMs), which have quadratic complexity. However, Recurrent LLMs often underperform on long-context tasks due to their limited fixed-size memory. Previous research has primarily focused on enhancing the memory capacity of Recurrent LLMs through architectural innovations, but these approaches have not yet enabled Recurrent LLMs to match the performance of Self-Attention LLMs on long-context tasks. We argue that this limitation arises because processing the entire context at once is not well-suited for Recurrent LLMs. In this paper, we propose Smooth Reading, a chunk-wise inference method inspired by human reading strategies. Smooth Reading processes context in chunks and iteratively summarizes the contextual information, thereby reducing memory demands and making the approach more compatible with Recurrent LLMs. Our experimental results show that this method substantially narrows the performance gap between Recurrent and Self-Attention LLMs on long-context tasks, while preserving the efficiency advantages of Recurrent LLMs. Our Smooth Reading boosts SWA-3B-4k (a Recurrent LLM) from 5.68% lower to 3.61% higher performance than Self-Attention LLMs on LongBench. Besides, our method maintains the high efficiency, training 3x faster and inferring 2x faster at 64k context compared to Self-Attention LLMs. To our knowledge, this is the first work to achieve comparable performance using Recurrent LLMs compared with Self-Attention LLMs on long-context tasks. We hope our method will inspire future research in this area. To facilitate further progress, we will release code and dataset.