Reliability Gated Multi-Teacher Distillation for Low Resource Abstractive Summarization
作者: Dipto Sumit, Ankan Kumar Roy, Sadia Khair Rodela, Atia Haque Asha, Mourchona Afrin, Niloy Farhan, Farig Yousuf Sadeque
分类: cs.CL, cs.AI
发布日期: 2026-04-06
💡 一句话要点
提出可靠性门控的多教师蒸馏方法,用于低资源抽象摘要生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 低资源摘要 知识蒸馏 多教师模型 可靠性门控 抽象摘要
📋 核心要点
- 低资源摘要生成面临数据稀缺挑战,现有方法难以充分利用多教师模型的知识。
- 论文提出EWAD和CPDP两种机制,前者基于教师一致性动态调整监督信号,后者约束学生模型学习异构教师的知识。
- 实验表明,该方法在孟加拉语数据集上有效,并揭示了单评委LLM评估中的校准偏差问题。
📝 摘要(中文)
本文研究了从可靠性角度出发,针对低资源抽象摘要生成的多教师知识蒸馏方法。我们引入了EWAD(熵权重一致性感知蒸馏),这是一种token级别的机制,它基于教师间的一致性来路由教师蒸馏和黄金标准监督。同时,我们提出了CPDP(容量比例散度保持),这是一个对学生相对于异构教师位置的几何约束。在两个孟加拉语数据集、13个BanglaT5消融实验和8个Qwen2.5实验中,我们发现logit级别的知识蒸馏提供了最可靠的增益,而更复杂的蒸馏方法提高了短摘要的语义相似性,但降低了较长输出的语义相似性。跨越十种语言的跨语言伪标签知识蒸馏在3.2倍压缩率下保留了教师ROUGE L指标的71-122%。一项经过人工验证的多评委LLM评估进一步揭示了单评委流程中的校准偏差。总的来说,我们的结果表明,可靠性感知蒸馏有助于确定多教师监督何时能够改善摘要生成,以及何时数据规模超过损失函数工程。
🔬 方法详解
问题定义:论文旨在解决低资源场景下的抽象摘要生成问题。现有方法在利用多教师模型进行知识蒸馏时,没有充分考虑不同教师模型预测的可靠性,可能导致学生模型学习到错误的知识,从而影响摘要生成的质量。此外,如何有效地融合多个异构教师模型的知识也是一个挑战。
核心思路:论文的核心思路是引入可靠性门控机制,根据教师模型之间的一致性程度来动态调整知识蒸馏的强度。具体来说,当教师模型之间达成一致时,学生模型应该更多地学习教师模型的知识;当教师模型之间存在分歧时,学生模型应该更多地依赖黄金标准数据进行学习。同时,通过几何约束来引导学生模型学习异构教师模型的知识,避免学生模型偏向于某个特定的教师模型。
技术框架:整体框架包含多个教师模型和一个学生模型。首先,使用多个预训练的教师模型对输入文本进行摘要生成。然后,利用EWAD机制计算每个token的蒸馏权重,该权重基于教师模型之间的一致性程度。接下来,使用CPDP机制对学生模型的位置进行几何约束,使其能够更好地学习异构教师模型的知识。最后,使用加权的损失函数来训练学生模型,该损失函数结合了教师蒸馏损失和黄金标准监督损失。
关键创新:论文的关键创新在于提出了EWAD和CPDP两种机制。EWAD是一种token级别的可靠性门控机制,可以根据教师模型之间的一致性程度来动态调整知识蒸馏的强度。CPDP是一种几何约束,可以引导学生模型学习异构教师模型的知识。这两种机制的结合可以有效地提高低资源场景下抽象摘要生成的质量。
关键设计:EWAD机制使用熵来衡量教师模型之间的一致性程度。具体来说,对于每个token,计算所有教师模型预测概率分布的平均熵。熵越低,表示教师模型之间的一致性越高,蒸馏权重越大。CPDP机制使用KL散度来衡量学生模型与教师模型之间的差异。具体来说,最小化学生模型与所有教师模型之间的KL散度之和,同时添加一个正则化项,以防止学生模型过于偏向于某个特定的教师模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的EWAD和CPDP机制可以有效地提高低资源抽象摘要生成的质量。在孟加拉语数据集上,该方法在ROUGE指标上取得了显著的提升。此外,跨语言伪标签知识蒸馏在3.2倍压缩率下保留了教师ROUGE L指标的71-122%。人工评估还揭示了单评委LLM评估中的校准偏差问题,强调了多评委评估的重要性。
🎯 应用场景
该研究成果可应用于低资源语言的自动摘要生成,例如少数民族语言、方言等。此外,该方法还可以扩展到其他自然语言处理任务中,例如机器翻译、文本分类等,以提高低资源场景下的模型性能。该研究有助于推动低资源语言的信息化建设,促进不同语言之间的交流与理解。
📄 摘要(原文)
We study multiteacher knowledge distillation for low resource abstractive summarization from a reliability aware perspective. We introduce EWAD (Entropy Weighted Agreement Aware Distillation), a token level mechanism that routes supervision between teacher distillation and gold supervision based on inter teacher agreement, and CPDP (Capacity Proportional Divergence Preservation), a geometric constraint on the student position relative to heterogeneous teachers. Across two Bangla datasets, 13 BanglaT5 ablations, and eight Qwen2.5 experiments, we find that logit level KD provides the most reliable gains, while more complex distillation improves semantic similarity for short summaries but degrades longer outputs. Cross lingual pseudo label KD across ten languages retains 71-122 percent of teacher ROUGE L at 3.2x compression. A human validated multi judge LLM evaluation further reveals calibration bias in single judge pipelines. Overall, our results show that reliability aware distillation helps characterize when multi teacher supervision improves summarization and when data scaling outweighs loss engineering.