Decoder-based Sense Knowledge Distillation

📄 arXiv: 2602.22351 📥 PDF

作者: Qitong Wang, Mohammed J. Zaki, Georgios Kollias, Vasileios Kalantzis

分类: cs.CL, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出基于解码器的语义知识蒸馏框架DSKD,提升生成式LLM的语义知识。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 大型语言模型 解码器模型 语义知识 自然语言生成

📋 核心要点

  1. 现有LLM忽略了词汇的结构化语义知识,如词义关系,限制了其语义理解能力。
  2. DSKD框架将词汇资源融入解码器LLM训练,无需推理时查词典,提升效率。
  3. 实验表明,DSKD显著提升了解码器的知识蒸馏性能,使模型继承结构化语义。

📝 摘要(中文)

大型语言模型(LLMs)学习到的上下文嵌入能够捕捉丰富的语义信息,但它们常常忽略了结构化的词汇知识,例如词义和关系。先前的工作表明,结合语义词典可以改进编码器模型的知识蒸馏,但将其应用于解码器作为生成模型仍然具有挑战性。在本文中,我们介绍了一种基于解码器的语义知识蒸馏(DSKD)框架,该框架将词汇资源集成到解码器风格的LLM的训练中,而无需在推理时进行词典查找。在各种基准上的大量实验表明,DSKD显著提高了解码器的知识蒸馏性能,使生成模型能够继承结构化的语义,同时保持高效的训练。

🔬 方法详解

问题定义:现有的大型语言模型虽然能够捕捉丰富的上下文信息,但在学习词汇的结构化语义知识(例如词义和词汇关系)方面存在不足。以往基于知识蒸馏的方法主要集中在编码器模型上,而如何有效地将结构化语义知识迁移到生成式的解码器模型仍然是一个挑战。现有方法在推理时可能需要查阅词典,影响效率。

核心思路:DSKD的核心思路是将词汇资源(例如词典)融入到解码器LLM的训练过程中,从而使模型能够学习到更加丰富的结构化语义知识。该方法旨在通过知识蒸馏的方式,让小的解码器模型能够学习到大型模型中蕴含的语义知识,同时避免在推理时进行词典查找,从而保证效率。

技术框架:DSKD框架主要包含以下几个阶段:1) 准备阶段:构建包含词汇及其对应语义信息的知识库。2) 训练阶段:利用知识库,通过特定的损失函数引导解码器模型学习语义知识。具体来说,教师模型(通常是大型预训练语言模型)的输出和学生模型(待训练的解码器模型)的输出都会与知识库中的语义信息进行比较,并计算损失。3) 推理阶段:训练好的解码器模型可以直接用于生成任务,无需额外的词典查找操作。

关键创新:DSKD的关键创新在于它提出了一种适用于解码器模型的语义知识蒸馏方法,该方法能够有效地将结构化语义知识迁移到生成式模型中,同时避免了推理时的额外计算开销。与以往的方法相比,DSKD更加注重生成模型的语义理解能力,并且在效率方面也具有优势。

关键设计:DSKD的关键设计包括:1) 如何构建合适的知识库,例如使用WordNet等词典资源。2) 如何设计损失函数,以有效地引导学生模型学习教师模型的语义知识。这可能涉及到对比学习、交叉熵损失等多种损失函数的组合。3) 如何选择合适的解码器模型结构,例如Transformer解码器。具体的参数设置和网络结构需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DSKD在多个基准测试中显著提高了解码器的知识蒸馏性能。例如,在文本摘要任务中,DSKD能够使学生模型在ROUGE指标上获得显著提升,接近甚至超过教师模型的性能。此外,DSKD还能够有效地提升模型在常识推理等任务上的表现,证明了其在语义理解方面的优势。

🎯 应用场景

DSKD可应用于各种自然语言生成任务,例如文本摘要、机器翻译、对话生成等。通过提升生成模型对语义的理解能力,可以生成更加准确、流畅、自然的文本。该研究对于提升LLM在实际应用中的性能具有重要价值,并有望推动自然语言处理领域的发展。

📄 摘要(原文)

Large language models (LLMs) learn contextual embeddings that capture rich semantic information, yet they often overlook structured lexical knowledge such as word senses and relationships. Prior work has shown that incorporating sense dictionaries can improve knowledge distillation for encoder models, but their application to decoder as generative models remains challenging. In this paper, we introduce Decoder-based Sense Knowledge Distillation (DSKD), a framework that integrates lexical resources into the training of decoder-style LLMs without requiring dictionary lookup at inference time. Extensive experiments on diverse benchmarks demonstrate that DSKD significantly enhances knowledge distillation performance for decoders, enabling generative models to inherit structured semantics while maintaining efficient training.