Enhancing Instruction-Following Capabilities in Seq2Seq Models: DoLA Adaptations for T5

作者: Huey Sun, Anabel Yong, Lorenzo Gilly, Felipe Jin

分类: cs.CL

发布日期: 2025-12-03 (更新: 2025-12-12)

💡 一句话要点

针对T5模型，提出基于梯度的激活调控方法，显著提升指令遵循能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 Seq2Seq模型 激活调控 梯度方法 FLAN-T5

📋 核心要点

现有Seq2Seq模型在指令遵循方面存在不足，尤其是在指令与模型记忆知识冲突时。
论文提出一种基于梯度的激活调控方法，将指令一致性方向注入解码器中间层，从而引导模型行为。
实验表明，该方法在MemoTrap任务上将性能从52%提升至99.7%，效果显著。

📝 摘要（中文）

诸如FLAN-T5的编码器-解码器模型经过微调后能够遵循指令，但当指令与训练期间记忆的延续性知识冲突时，往往会失败。为了理解这种行为，我们将DoLa方法应用于FLAN-T5，并检查解码器中表征的演变过程。我们的研究结果表明，T5的中间层经历了由对编码器的交叉注意力驱动的快速变化。当通过语言建模头进行投影时，每个深度都呈现出高度不稳定的token偏好，导致对比解码的不可靠行为。受此启发，我们引入了一种基于梯度的激活调控方法，将“指令一致性”方向注入到中间解码器层，其中表征既有意义又具有可塑性。这种干预显著提高了MemoTrap性能（从52%到99.7%），表明在Seq2Seq架构中，机械调控可以成功，而对比解码则失败。

🔬 方法详解

问题定义：现有Seq2Seq模型，如FLAN-T5，在指令遵循任务中，当指令与模型预训练时记忆的知识发生冲突时，表现不佳。模型倾向于生成预训练时常见的延续性内容，而忽略指令的要求。这种现象表明模型在指令和记忆之间存在混淆，无法有效区分和利用指令信息。

核心思路：论文的核心思路是通过干预解码器中间层的激活，引导模型朝着指令一致性的方向生成内容。作者认为，解码器的中间层既包含了足够的语义信息，又具有一定的可塑性，适合进行干预。通过注入“指令一致性”方向，可以有效地影响模型的生成行为，使其更好地遵循指令。

技术框架：该方法主要包含以下几个步骤：1) 使用DoLa方法分析FLAN-T5解码器中间层的表征演变，发现中间层受到交叉注意力的强烈影响，导致token偏好不稳定。2) 确定进行激活调控的解码器层。3) 计算“指令一致性”方向，该方向基于梯度信息，反映了模型朝着指令一致性方向调整参数的趋势。4) 将计算得到的“指令一致性”方向注入到选定的解码器层，从而引导模型的生成行为。

关键创新：该方法的关键创新在于提出了一种基于梯度的激活调控方法，用于干预Seq2Seq模型的解码过程。与传统的对比解码方法不同，该方法直接干预模型的内部表征，从而更有效地引导模型的生成行为。此外，该方法还利用DoLa方法分析了模型内部表征的演变过程，为激活调控提供了理论依据。

关键设计：该方法的关键设计包括：1) 使用梯度信息计算“指令一致性”方向，确保干预方向与指令的要求一致。2) 选择合适的解码器层进行激活调控，平衡了语义信息的丰富性和表征的可塑性。3) 激活调控的强度需要仔细调整，以避免过度干预导致模型性能下降。具体的梯度计算和注入方式，以及调控强度的选择，需要在实际应用中进行实验调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在MemoTrap任务上取得了显著的性能提升，从52%提高到99.7%。这表明该方法能够有效地解决指令与记忆冲突的问题，并显著提升Seq2Seq模型的指令遵循能力。该结果优于对比解码等传统方法，证明了机械调控在Seq2Seq架构中的有效性。

🎯 应用场景

该研究成果可应用于各种需要精确指令遵循的Seq2Seq模型，例如对话系统、代码生成、文本摘要等。通过提升模型对指令的理解和执行能力，可以提高这些应用的用户体验和实用性。未来，该方法可以扩展到其他类型的模型和任务中，例如多模态任务和强化学习任务。

📄 摘要（原文）

Encoder-decoder models such as FLAN-T5 are finetuned to follow instructions, but often fail when the instructions conflict with memorized continuations ingrained during training. To understand this behavior, we adapt DoLa to FLAN-T5 and examine how representations evolve in the decoder. Our findings show that T5's intermediate layers undergo rapid shifts driven by cross-attention to the encoder. When projected through the language modeling head, each depth presents highly volatile token preferences, leading to unreliable behavior with contrastive decoding. Motivated by this, we introduce a gradient-based activation-steering method that injects an "instruction-compliance" direction into mid-decoder layers, where the representation is both meaningful and still malleable. This intervention dramatically improves MemoTrap performance (52% to 99.7%), demonstrating that mechanistic steering can succeed where contrastive decoding fails in Seq2Seq architectures.

Enhancing Instruction-Following Capabilities in Seq2Seq Models: DoLA Adaptations for T5

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理