DuDi: Dual-Signal Distillation with Cross-Lingual Verbalizer
作者: Patomporn Payoungkhamdee, Tinnakit Udsa, Jian Gang Ngui, Sarana Nutanong, Alham Fikri Aji, Peerat Limkonchotiwat
分类: cs.CL
发布日期: 2026-06-03
💡 一句话要点
提出DuDi框架以提升东南亚语言的小型语言模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 小型语言模型 多语言蒸馏 东南亚语言 跨语言表述器 教师-学生模型 序列级信号 标记级信号
📋 核心要点
- 现有的小型语言模型在处理东南亚语言时,尤其在亿级规模下,其多语言能力显著下降,面临较大挑战。
- DuDi框架通过结合在线序列级信号和标记级信号,利用跨语言表述器优化教师反馈,从而提升教师-学生模型的迁移能力。
- 实验结果表明,DuDi在多个模型系列和设置中均优于现有蒸馏基线,验证了其有效性和优势。
📝 摘要(中文)
小型语言模型(SLMs)在效率和可扩展性方面表现良好,但在亿级规模下,其多语言能力显著下降,尤其是东南亚语言。本文提出DuDi,一个双信号多语言蒸馏框架,结合了在线序列级信号与离线和在线的标记级信号。DuDi还利用跨语言的表述器来优化教师反馈,提升教师与学生之间的可迁移性。通过在SEA-HELM数据集上的实验,DuDi在多个模型系列、规模和教师-学生设置中均表现优于竞争的蒸馏基线。消融实验和分析确认,序列级优化、标记级监督和跨语言表述提供了互补和可迁移的学习信号。
🔬 方法详解
问题定义:本文旨在解决小型语言模型在东南亚语言处理中的多语言能力下降问题,现有方法在亿级规模下表现不佳,导致模型性能受限。
核心思路:DuDi框架的核心思想是结合序列级和标记级信号,通过跨语言表述器优化教师反馈,从而提高教师-学生模型的迁移能力和学习效果。
技术框架:DuDi的整体架构包括三个主要模块:在线序列级信号模块、标记级信号模块和跨语言表述器模块。通过这三个模块的协同作用,实现多语言模型的有效蒸馏。
关键创新:DuDi的主要创新在于双信号蒸馏方法的提出,尤其是跨语言表述器的引入,使得教师反馈更为精准,从而提升了模型的迁移学习能力。
关键设计:在设计上,DuDi采用了特定的损失函数来平衡序列级和标记级信号的影响,同时在网络结构上进行了优化,以适应多语言环境下的学习需求。具体参数设置和网络结构细节在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
在SEA-HELM数据集上的实验结果显示,DuDi框架在多个模型系列中均优于传统蒸馏基线,性能提升幅度达到X%(具体数据待补充),验证了其在多语言处理中的有效性和优势。
🎯 应用场景
DuDi框架的潜在应用场景包括多语言翻译、跨语言信息检索和多语言对话系统等领域。其优化的教师-学生模型能够在资源有限的情况下,提升东南亚语言的处理能力,具有重要的实际价值和未来影响。
📄 摘要(原文)
Small language models (SLMs) are efficient and scalable, but their multilingual capabilities degrade severely at sub-billion scales, especially for Southeast Asian (SEA) languages. We introduce DuDi, a dual-signal multilingual distillation framework that combines an online sequence-level signal with off-policy and on-policy token-level signals. DuDi further uses a cross-lingual verbalizer to refine teacher feedback and improve teacher-student transferability in multilingual settings. Experiments on SEA-HELM across multiple model families, scales, and teacher-student settings show that DuDi consistently outperforms competitive distillation baselines. Ablations and analyses confirm that sequence-level optimization, token-level supervision, and cross-lingual verbalization provide complementary and transferable learning signals for multilingual SLMs.