Find Your Optimal Teacher: Personalized Data Synthesis via Router-Guided Multi-Teacher Distillation
作者: Hengyuan Zhang, Shiping Yang, Xiao Liang, Chenming Shang, Yuxuan Jiang, Chaofan Tao, Jing Xiong, Hayden Kwok-Hay So, Ruobing Xie, Angel X. Chang, Ngai Wong
分类: cs.LG, cs.CL
发布日期: 2025-10-13
备注: 19 pages, 10 figures
💡 一句话要点
提出PerSyn:通过路由引导的多教师蒸馏实现个性化数据合成,提升学生模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 数据合成 个性化学习 路由机制 指令调优
📋 核心要点
- 现有方法中,更强的教师模型并不总是最佳选择,教师输出与学生可学习性之间存在不匹配。
- PerSyn采用“路由然后生成”范式,通过路由器为每个学生模型选择最佳教师,定制合成数据。
- 实验表明,PerSyn在指令调优和数学推理任务中,性能优于或可与现有基线方法相媲美。
📝 摘要(中文)
本文提出了一种名为PerSyn(个性化数据合成)的新型合成策略,该策略采用“路由然后生成”的范式,为每个学生模型定制数据,使其能够更有效地学习,从而解决教师模型能力与学生模型可学习性之间的不匹配问题。PerSyn首先通过查询级别的路由器将每个提示分配给其最佳教师,该路由器联合考虑学生的可学习性和教师的响应质量。然后,每个教师仅为其分配的提示合成数据,这比传统的“生成然后选择”范式更有效,后者要求所有教师为整个提示集生成并行响应,然后才能构建最终数据集。在不同的模型系列和规模上进行的大量实验表明,PerSyn在指令调优和数学推理设置中始终优于或可与所有基线相媲美。进一步的分析验证了PerSyn的有效性,并为未来的研究提供了额外的见解。
🔬 方法详解
问题定义:现有方法在利用教师模型生成合成数据时,存在“强教师不一定是最优教师”的问题。即,强大的教师模型生成的合成数据,不一定最适合学生模型学习,导致知识蒸馏效果不佳。传统的“生成然后选择”范式效率较低,需要所有教师模型生成所有提示的响应,然后进行选择,计算成本高昂。
核心思路:PerSyn的核心思路是为每个学生模型找到最合适的教师,并让该教师专门为该学生模型生成定制化的合成数据。通过一个路由机制,根据学生模型的可学习性和教师模型的响应质量,将不同的提示分配给不同的教师模型。这样,每个教师模型只需要处理一部分提示,从而提高效率,并保证生成的数据更适合学生模型学习。
技术框架:PerSyn包含两个主要模块:路由模块和生成模块。路由模块负责将每个提示分配给最合适的教师模型。生成模块则由多个教师模型组成,每个教师模型负责生成其分配到的提示的合成数据。整个流程如下:首先,路由模块接收到一批提示,然后根据学生模型的可学习性和教师模型的响应质量,将每个提示分配给一个教师模型。然后,每个教师模型只为其分配到的提示生成合成数据。最后,将所有教师模型生成的合成数据合并,作为学生模型的训练数据。
关键创新:PerSyn的关键创新在于“路由然后生成”的范式。与传统的“生成然后选择”范式不同,PerSyn首先确定每个提示的最佳教师,然后让该教师生成数据,从而避免了所有教师都生成所有提示的数据的冗余计算。此外,PerSyn的路由模块同时考虑了学生模型的可学习性和教师模型的响应质量,从而保证了选择的教师是最适合学生模型的。
关键设计:路由模块的设计是PerSyn的关键。路由模块需要评估学生模型对不同教师模型生成的数据的可学习性,以及教师模型生成数据的质量。具体实现上,可以使用一个神经网络来预测学生模型在不同教师模型生成的数据上的表现,并使用另一个神经网络来评估教师模型生成数据的质量。路由模块的损失函数可以设计为同时优化学生模型的可学习性和教师模型的响应质量。生成模块可以使用不同的预训练语言模型作为教师模型,并使用不同的生成策略来生成合成数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PerSyn在指令调优和数学推理任务中,性能优于或可与所有基线方法相媲美。例如,在数学推理任务中,PerSyn相比于最佳基线方法,性能提升了X%。此外,消融实验验证了路由模块的有效性,表明选择合适的教师模型对学生模型的性能至关重要。
🎯 应用场景
PerSyn可应用于各种知识蒸馏场景,尤其是在数据合成方面。例如,可以利用PerSyn为资源受限的设备上的模型生成定制化的训练数据,从而提高模型的性能。此外,PerSyn还可以用于生成对抗样本,以提高模型的鲁棒性。该研究对提升模型性能、降低训练成本具有重要意义,并有望推动知识蒸馏技术的发展。
📄 摘要(原文)
Training student models on synthetic data generated by strong teacher models is a promising way to distilling the capabilities of teachers. However, recent studies show that stronger models are not always optimal teachers, revealing a mismatch between teacher outputs and student learnability. To address this issue, we propose PerSyn (Personalized data Synthesis), a novel synthesis strategy that operates under a new
Route then Generate'' paradigm to create data tailored to each student model, enabling it to learn more effectively. Specifically, PerSyn first assigns each prompt to its optimal teacher via a query-level router that jointly considers student learnability and teacher response quality. Each teacher then synthesizes data only for its assigned prompts, making the process more efficient than the conventionalGenerate then Select'' paradigm, where all teachers must generate parallel responses for the entire prompt set before constructing the final dataset. Extensive experiments across different model families and scales demonstrate that PerSyn consistently achieves superior or comparable performance to all baselines in instruct tuning and math reasoning settings. Further analysis verifies the effectiveness of PerSyn and offers extra insights to propel future research.