BOSCH: Black-Box Binary Optimization for Short-Context Attention-Head Selection in LLMs

📄 arXiv: 2604.05942v1 📥 PDF

作者: Abbas Ghaddar, Ivan Kobyzev, Boxing Chen, Yufei Cui

分类: cs.CL

发布日期: 2026-04-07

备注: ACL 2026 (Main Conference)


💡 一句话要点

提出BOSCH以解决大语言模型短上下文注意力头选择问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 滑动窗口注意力 黑箱优化 短上下文 头选择 性能提升 自适应分配

📋 核心要点

  1. 现有的混合化方案在层级或头级定义时存在不足,无法有效处理局部与全局依赖关系。
  2. BOSCH通过黑箱优化方法,提出了一种无训练的短上下文头选择方案,解决了现有方法的局限性。
  3. 实验结果显示,BOSCH在多个LLMs和不同SWA比率下均显著优于传统方法,恢复长上下文性能更快。

📝 摘要(中文)

大语言模型(LLMs)的后训练混合化通常用滑动窗口注意力(SWA)替代二次自注意力,以减少KV缓存使用并提高延迟。现有混合化方案通常在层级或头级进行定义,但层级方案忽略了同层内头部之间的局部和全局依赖,而静态头级排名则受限于头部行为的变化。本文提出BOSCH(黑箱二进制优化短上下文头选择),一种无训练的方法,将问题表述为大邻域搜索,并分解为三个子问题:层重要性检测、基于敏感度的自适应SWA比率分配和分组头级优化。对4个参数从1.7B到30B的LLMs进行的广泛实验表明,BOSCH在各个SWA比率下均优于层级启发式和6种静态头级方法,且在较高SWA比率下获得更大提升。

🔬 方法详解

问题定义:本文旨在解决大语言模型中短上下文注意力头选择的问题。现有方法在层级和头级的定义上存在局限,无法有效捕捉局部与全局的依赖关系,导致性能下降。

核心思路:BOSCH采用黑箱二进制优化方法,将头选择问题转化为大邻域搜索,分解为层重要性检测、SWA比率分配和头级优化三个子问题,以实现更灵活的头选择。

技术框架:BOSCH的整体架构包括三个主要模块:首先,通过小预算黑箱探测器进行层重要性检测;其次,根据检测到的敏感度自适应分配每层的SWA比率;最后,在比率桶内进行分组头级优化。

关键创新:BOSCH的主要创新在于其无训练的优化方法,能够动态选择适合不同SWA比率的头部,而不是依赖于固定的局部排名,这一设计显著提高了模型的灵活性和性能。

关键设计:在参数设置上,BOSCH使用小预算黑箱探测器来评估层的重要性,并根据这些评估结果进行自适应的SWA比率分配,确保每层的优化能够针对特定的上下文需求进行调整。实验中,采用了多种SWA比率进行比较,以验证方法的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BOSCH在4个不同的LLMs上表现优异,尤其在较高的SWA比率下,相较于层级启发式和6种静态头级方法,性能提升显著。具体而言,BOSCH在恢复原始长上下文性能方面表现更快且达到更高水平,显示出其在动态头选择上的优势。

🎯 应用场景

BOSCH的研究成果在大语言模型的优化和应用中具有重要价值,尤其是在需要高效处理长上下文的自然语言处理任务中。该方法的灵活性和高效性使其适用于实时应用,如对话系统、机器翻译和文本生成等领域,未来可能推动更多基于上下文的智能应用的发展。

📄 摘要(原文)

Post-training hybridization of large language models (LLMs) often replaces quadratic self-attention with sliding-window attention (SWA) to reduce KV cache usage and improve latency. Existing hybridization schemes are typically defined either at the layer level (e.g., interleaving) or at the head level via static rankings from local to global. Layer-level schemes ignore that local and global dependencies are routed through heads within the same layer, while static head-level rankings suffer from entanglement: a head's local/global behavior can change after hybridization. We propose BOSCH, Black-box Binary Optimization for Short-context Head Selection, a training-free method that formulates the problem as a Large Neighborhood Search and decomposes it into three subproblems: (i) layer-importance detection via small-budget black-box probes, (ii) adaptive per-layer SWA-ratio assignment based on these sensitivities, and (iii) grouped head-level optimization within ratio buckets. Extensive experiments on 4 LLMs ranging from 1.7B to 30B parameters, across 4 SWA ratios, show that BOSCH consistently outperforms layer-level heuristics and 6 strong static head-level methods, with larger gains at higher SWA ratios. Under continual pretraining, BOSCH recover original long-context performance faster and to a higher level. Analysis of the selected heads reveals substantial turnover for BOSCH across different SWA ratios, underscoring the importance of performing head-level selection for each target ratio rather than relying on fixed locality rankings.