SWAA: Sliding Window Attention Adaptation for Efficient Long-Context LLMs Without Pretraining

作者: Yijiong Yu, Jiale Liu, Qingyun Wu, Huazheng Wang, Ji Pei

分类: cs.CL, cs.AI

发布日期: 2025-12-11 (更新: 2026-01-07)

🔗 代码/项目: GITHUB

💡 一句话要点

提出SWAA，无需预训练即可高效适配长文本LLM的滑动窗口注意力机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 滑动窗口注意力 长文本推理 大语言模型 模型适配 效率优化

📋 核心要点

Transformer模型中自注意力的计算复杂度是长文本处理的瓶颈，直接应用滑动窗口注意力会导致性能显著下降。
SWAA通过一系列策略组合，包括预填充阶段使用SWA、保留关键token、混合FA/SWA层等，实现FA模型到SWA的有效适配。
实验表明，特定的SWAA配置能够在保证可接受的质量损失下，显著加速长文本LLM的推理速度，最高可达100%。

📝 摘要（中文）

基于Transformer的大语言模型(LLMs)中自注意力的二次复杂度使得长文本推理的成本过高。滑动窗口注意力(SWA)作为最简单的稀疏注意力模式，提供了一种线性复杂度的替代方案，但直接将其应用于使用全注意力(FA)预训练的模型会导致灾难性的长文本性能崩溃，这是由于训练和推理之间的不匹配。为了解决这个问题，我们提出了滑动窗口注意力适配(SWAA)，这是一个即插即用的工具包，包含了一系列方法，可以在不需要昂贵的预训练的情况下，将FA模型适配到SWA。SWAA系统地结合了五种策略：（1）仅在预填充期间应用SWA；（2）保留“sink”令牌；（3）交错FA/SWA层；（4）思维链(CoT)；（5）微调。我们的实验表明，虽然单独的方法是不够的，但特定的协同组合可以有效地恢复原始的长文本能力。在进一步分析性能-效率权衡后，我们为不同的场景确定了推荐的SWAA配置，这些配置在可接受的质量损失下，实现了长文本LLM推理30%到100%的加速。我们的代码可在https://github.com/yuyijiong/sliding-window-attention-adaptation获得。

🔬 方法详解

问题定义：论文旨在解决将全注意力（FA）预训练的大语言模型（LLM）迁移到滑动窗口注意力（SWA）时，长文本处理性能急剧下降的问题。现有方法直接应用SWA会导致训练和推理阶段的不匹配，从而导致性能崩溃。

核心思路：论文的核心思路是通过一系列适配策略，弥合FA预训练和SWA推理之间的差距，从而在不进行昂贵预训练的情况下，使FA模型能够有效地利用SWA进行长文本推理。这种方法旨在保持模型的长文本处理能力，同时降低计算成本。

技术框架：SWAA是一个即插即用的工具包，包含五个主要策略：1) 仅在预填充阶段应用SWA，避免在生成阶段引入过多的性能损失；2) 保留“sink” tokens，确保模型能够关注到全局信息；3) 交错使用FA和SWA层，平衡全局和局部信息；4) 使用思维链(CoT)提示，提高模型的推理能力；5) 进行微调，进一步优化模型在SWA下的性能。这些策略可以灵活组合，以适应不同的应用场景。

关键创新：该论文的关键创新在于提出了一种系统性的方法，通过多种策略的协同作用，实现了FA模型到SWA的有效适配，而无需重新进行预训练。这种方法避免了昂贵的预训练成本，并能够快速地将现有的FA模型应用于长文本推理任务。

关键设计：SWAA的关键设计在于策略的组合和选择。论文通过实验分析了不同策略组合的性能，并为不同的应用场景提供了推荐的配置。例如，对于需要高推理速度的场景，可以选择更激进的SWA配置，而对于需要更高准确率的场景，则可以选择更保守的配置。此外，sink token的数量、FA/SWA层的比例、微调的学习率等参数也需要根据具体情况进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SWAA能够有效地恢复FA模型在SWA下的长文本处理能力。在不同的配置下，SWAA实现了30%到100%的推理速度提升，同时保持了可接受的质量损失。论文还提供了针对不同场景的推荐配置，为实际应用提供了指导。

🎯 应用场景

该研究成果可广泛应用于需要处理长文本的自然语言处理任务中，例如长文档摘要、机器翻译、问答系统等。通过降低长文本推理的计算成本，可以使LLM在资源受限的环境中也能高效运行，并促进LLM在更多实际场景中的应用。

📄 摘要（原文）

The quadratic complexity of self-attention in Transformer-based Large Language Models (LLMs) renders long-context inference prohibitively expensive. While Sliding Window Attention (SWA), the simplest sparse attention pattern, offers a linear-complexity alternative, naively applying it to models pretrained with Full Attention (FA) causes catastrophic long-context performance collapse due to the training-inference mismatch. To address this, we propose Sliding Window Attention Adaptation (SWAA), a plug-and-play toolkit of recipes that adapt FA models to SWA without costly pretraining. SWAA systematically combines five strategies: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments demonstrate that while individual methods are insufficient, specific synergistic combinations can effectively recover original long-context capabilities. After further analyzing performance-efficiency trade-offs, we identify recommended SWAA configurations for diverse scenarios, which achieve 30% to 100% speedups for long-context LLM inference with acceptable quality loss. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation

SWAA: Sliding Window Attention Adaptation for Efficient Long-Context LLMs Without Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理