Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment
作者: Chayanon Kitkana, Shivam Arora
分类: cs.LG, cs.AI
发布日期: 2026-04-28
备注: Published in ICLR 2026 Sci4DL Workshop
💡 一句话要点
研究表明持续梯度对齐驱动MNIST辅助Logit蒸馏中的潜意识学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 潜意识学习 知识蒸馏 梯度对齐 MNIST 辅助Logit 多步训练 Liminal Training
📋 核心要点
- 潜意识学习使得学生模型在蒸馏过程中意外获得教师模型的特征,但其在多步训练中的梯度对齐机制尚不明确。
- 该研究通过实验验证了多步训练中梯度对齐的持续性,并揭示了其对潜意识学习的因果作用。
- 实验结果表明,现有的缓解方法(liminal training)通过衰减梯度对齐来工作,但在某些情况下可能失效。
📝 摘要(中文)
在MNIST辅助logit蒸馏实验中,即使仅在无类别logit上进行蒸馏,学生模型也能获得教师模型中非预期的特征,这种现象被称为潜意识学习。基于单步梯度下降的假设,潜意识学习理论将这种效应归因于特征梯度和蒸馏梯度之间的对齐,但无法保证这种对齐在多步训练中持续存在。本文通过实验证明,梯度对齐在整个训练过程中保持微弱但持续的正向,并因果地促进了特征的获取。研究还表明,一种名为liminal training的缓解方法通过衰减对齐来工作,但无法阻止这种设置中的特征获取。这些结果表明,当一阶驱动占主导地位时,在这种机制下运行的缓解方法可能无法可靠地抑制特征获取。
🔬 方法详解
问题定义:论文旨在研究在多步训练的MNIST辅助logit蒸馏实验中,潜意识学习现象背后的梯度对齐机制。现有理论基于单步梯度下降假设,无法解释多步训练中梯度对齐的持续性以及其对特征获取的影响。此外,现有的缓解方法(如liminal training)的效果在多步训练中是否依然有效也需要进一步验证。
核心思路:论文的核心思路是通过实验分析多步训练过程中特征梯度和蒸馏梯度之间的对齐情况,并探究这种对齐与学生模型特征获取之间的因果关系。通过控制梯度对齐的强度,观察学生模型特征获取的变化,从而验证梯度对齐在潜意识学习中的作用。
技术框架:该研究主要基于MNIST数据集和辅助logit蒸馏框架。教师模型和学生模型都使用标准的卷积神经网络结构。蒸馏过程仅在无类别logit上进行,以模拟潜意识学习的场景。通过计算特征梯度和蒸馏梯度之间的余弦相似度来衡量梯度对齐程度。此外,还使用了因果干预的方法,例如通过修改梯度来控制梯度对齐的强度。
关键创新:该研究的关键创新在于揭示了多步训练中梯度对齐的持续性,并验证了其对潜意识学习的因果作用。与现有理论仅关注单步梯度下降不同,该研究更贴近实际的训练过程。此外,该研究还评估了现有缓解方法(liminal training)在多步训练中的效果,并指出了其局限性。
关键设计:实验中,教师模型和学生模型都采用了标准的MNIST分类网络结构。损失函数主要包括蒸馏损失和分类损失。蒸馏损失用于衡量学生模型和教师模型在无类别logit上的差异。梯度对齐程度通过计算特征梯度和蒸馏梯度之间的余弦相似度来衡量。Liminal training通过在蒸馏损失中引入一个超参数来控制蒸馏梯度的强度,从而衰减梯度对齐。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使在多步训练中,特征梯度和蒸馏梯度之间仍然保持微弱但持续的正向对齐,并且这种对齐与学生模型特征的获取存在因果关系。Liminal training虽然可以衰减梯度对齐,但在某些情况下无法完全阻止特征获取。这些结果表明,需要更有效的缓解方法来抑制潜意识学习。
🎯 应用场景
该研究成果可应用于知识蒸馏、联邦学习等领域,有助于理解和缓解模型训练过程中出现的非预期行为,例如隐私泄露、公平性问题等。通过控制梯度对齐,可以设计更安全、更可靠的机器学习系统。未来的研究可以探索更有效的缓解方法,以抑制潜意识学习带来的负面影响。
📄 摘要(原文)
In the MNIST auxiliary logit distillation experiment, a student can acquire an unintended teacher trait despite distilling only on no-class logits through a phenomenon called subliminal learning. Under a single-step gradient descent assumption, subliminal learning theory attributes this effect to alignment between the trait and distillation gradients, but does not guarantee that this alignment persists in a multi-step setting. We empirically show that gradient alignment remains weakly but consistently positive throughout training and causally contributes to trait acquisition. We show that a mitigation method called liminal training works by attenuating the alignment and fails to stop trait acquisition in this setup. These results suggest that mitigation methods that operate in this regime may not reliably suppress trait acquisition when the first-order drive dominates.