FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning
作者: Zehua Pei, Hui-Ling Zhen, Xianzhi Yu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu
分类: cs.CL
发布日期: 2026-05-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出FocuSFT,通过双层优化解决长文本微调中的注意力稀释问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本微调 注意力机制 双层优化 注意力稀释 自然语言处理
📋 核心要点
- 现有长文本微调方法受限于注意力稀释问题,导致模型无法有效利用长上下文中的语义信息。
- FocuSFT通过双层优化框架,在内循环中学习上下文相关的参数化记忆,聚焦语义相关内容。
- 实验结果表明,FocuSFT在多个长文本基准测试中显著提升性能,并有效减少注意力陷阱。
📝 摘要(中文)
大型语言模型现在可以处理越来越长的输入,但有效利用长上下文中信息的能力仍然有限。本文将这种差距归因于在长序列的有监督微调(SFT)期间注意力预算的分配方式:位置偏差和注意力陷阱导致模型将大部分注意力分配给位置上特权的token,而不是语义相关的token。这种训练时的注意力稀释(注意力分布中内容token的匮乏)削弱了梯度信号,限制了模型学习鲁棒的长上下文能力。因此,本文提出了FocuSFT,一个双层优化框架,在训练时解决这个问题。一个内循环在训练上下文中调整轻量级的快权重参数,形成一个参数化的记忆,将注意力集中在相关内容上,外循环执行以此为条件的SFT。两个循环都对上下文token应用双向注意力,同时保留响应的因果掩码,减少了导致注意力陷阱的因果不对称性,并对齐了内外行为。在BABILong上,FocuSFT在4K-32K上下文长度上提高了高达+14pp的准确率;在RULER上,它将16K时的CWE聚合从72.9%提高到81.1%;在具有代理工具使用的GPQA上,它在pass@1中产生了24%的相对增益。注意力分析表明,FocuSFT将注意力陷阱质量减少了529倍,并在训练期间将上下文参与度提高了三倍。
🔬 方法详解
问题定义:大型语言模型处理长文本时,标准微调方法容易将注意力集中在位置信息或特殊token上,忽略了语义相关的上下文内容。这种“注意力稀释”导致模型学习到的梯度信号弱化,无法有效利用长文本中的信息,影响下游任务表现。现有方法难以在长文本上进行有效微调,是制约长文本应用的关键瓶颈。
核心思路:FocuSFT的核心在于通过双层优化,显式地引导模型关注语义相关的内容。内循环构建一个轻量级的参数化记忆模块,用于捕获和增强上下文中重要的信息。外循环则基于内循环提供的聚焦后的表示,进行标准的监督微调。这种内外循环协同工作的方式,能够克服注意力稀释问题,提升模型在长文本上的学习能力。
技术框架:FocuSFT包含内外两个优化循环。内循环使用可学习的快速权重参数构建参数化记忆,通过双向注意力机制对上下文进行编码,突出关键信息。外循环基于内循环的输出进行监督微调,优化模型的主干参数。内外循环交替进行,使模型逐步学会关注长文本中的重要信息。同时,为了减少因果不对称性,内外循环均采用双向注意力机制处理上下文,并对响应进行因果掩码。
关键创新:FocuSFT的关键创新在于将双层优化引入到长文本微调中,通过内循环动态调整注意力分布,克服了注意力稀释问题。与传统的微调方法相比,FocuSFT能够更有效地利用长文本中的信息,提升模型的性能。此外,内外循环共享双向注意力机制,减少了因果不对称性,进一步提升了学习效果。
关键设计:内循环使用轻量级的快速权重参数,以降低计算成本。内外循环交替进行,避免了内循环过度拟合。损失函数包括监督学习损失和正则化损失,以防止模型过拟合。双向注意力机制采用相对位置编码,以更好地处理长文本。对响应进行因果掩码,保证了模型生成的连贯性。
🖼️ 关键图片
📊 实验亮点
在BABILong数据集上,FocuSFT在4K-32K的上下文长度上获得了高达+14pp的准确率提升。在RULER数据集上,FocuSFT将16K上下文长度下的CWE聚合指标从72.9%提高到81.1%。在GPQA数据集上,使用agentic tool use时,FocuSFT在pass@1指标上取得了24%的相对增益。注意力分析表明,FocuSFT显著减少了注意力陷阱,并提升了模型对上下文的关注度。
🎯 应用场景
FocuSFT适用于需要处理长文本输入的各种自然语言处理任务,例如长文档摘要、问答系统、代码生成、以及需要上下文理解的对话系统。通过提升模型在长文本上的理解能力,FocuSFT可以有效提高这些任务的性能,并推动长文本应用的发展。此外,该方法还可以应用于其他需要关注重要信息的任务中,例如知识图谱推理。
📄 摘要(原文)
Large language models can now process increasingly long inputs, yet their ability to effectively use information spread across long contexts remains limited. We trace this gap to how attention budget is spent during supervised fine-tuning (SFT) on long sequences: positional biases and attention sinks cause the model to allocate most of its attention to positionally privileged tokens rather than semantically relevant content. This training-time attention dilution (the starvation of content tokens in the attention distribution) weakens the gradient signal, limiting the model's ability to learn robust long-context capabilities. We introduce FocuSFT, a bilevel optimization framework that addresses this problem at training time. An inner loop adapts lightweight fast-weight parameters on the training context to form a parametric memory that concentrates attention on relevant content, and the outer loop performs SFT conditioned on this sharpened representation. Both loops apply bidirectional attention over context tokens while preserving causal masking for responses, reducing the causal asymmetry that gives rise to attention sinks and aligning inner-outer behavior. On BABILong, FocuSFT improves accuracy by up to +14pp across 4K--32K context lengths; on RULER, it raises CWE aggregation from 72.9\% to 81.1\% at 16K; and on GPQA with agentic tool use, it yields a 24\% relative gain in pass@1. Attention analysis shows that FocuSFT reduces attention sink mass by 529$\times$ and triples context engagement during training. Code: https://github.com/JarvisPei/FocuSFT