Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

📄 arXiv: 2507.14894v1 📥 PDF

作者: Boyi Deng, Yu Wan, Baosong Yang, Fei Huang, Wenjie Wang, Fuli Feng

分类: cs.CL

发布日期: 2025-07-20


💡 一句话要点

提出SASFT方法,通过稀疏自编码器指导监督微调,显著缓解LLM中意外的代码切换问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 代码切换 稀疏自编码器 监督微调 多语言学习

📋 核心要点

  1. 现有工作对LLM意外代码切换问题缺乏深入的机制分析,且缓解效果有限,影响模型输出的可读性和可用性。
  2. 论文提出SASFT方法,核心思想是利用稀疏自编码器指导监督微调,使LLM在训练中维持特定语言特征的适当预激活值。
  3. 实验表明,SASFT能显著减少LLM的意外代码切换,降低幅度超过50%,并在多个多语言基准测试中保持甚至提升模型性能。

📝 摘要(中文)

大型语言模型(LLM)具有令人印象深刻的多语言能力,但它们存在意外的代码切换问题,也称为语言混合,即在模型响应中切换到意想不到的语言。这个问题导致可读性差,并降低了模型响应的可用性。然而,现有关于此问题的工作缺乏机制分析,并且效果有限。在本文中,我们首先使用稀疏自编码器对意外的代码切换进行了深入分析,发现当LLM切换到某种语言时,该语言的特征表现出过高的预激活值。基于我们的发现,我们提出了$ extbf{S}$parse $ extbf{A}$utoencoder-guided $ extbf{S}$upervised $ extbf{F}$ine$ extbf{t}$uning (SASFT),它教导LLM在训练期间保持特定语言特征的适当预激活值。在三种语言的五个模型上的实验表明,与标准监督微调相比,SASFT始终将意外的代码切换减少了50%以上,在四个案例中完全消除了代码切换。此外,SASFT保持甚至提高了模型在六个多语言基准测试中的性能,表明其在解决代码切换问题的同时保留了多语言能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中出现的意外代码切换问题,即模型在生成文本时,会切换到非预期的语言。现有方法通常缺乏对代码切换内在机制的深入理解,因此在缓解该问题上的效果有限,导致模型输出质量下降。

核心思路:论文的核心思路是,通过分析发现LLM发生代码切换时,目标语言的特征会表现出过高的预激活值。因此,通过监督微调,引导模型在训练过程中维持特定语言特征的适当预激活值,从而抑制意外的代码切换。

技术框架:SASFT (Sparse Autoencoder-guided Supervised Finetuning) 方法主要包含两个阶段:1) 使用稀疏自编码器分析LLM中不同语言的特征激活情况,确定导致代码切换的关键特征;2) 使用监督微调,并结合稀疏自编码器的分析结果,调整模型参数,使其在生成文本时能够更好地控制不同语言特征的激活强度。

关键创新:该方法最重要的创新点在于,它并非简单地通过数据增强或惩罚项来抑制代码切换,而是深入分析了代码切换的内在机制,并有针对性地调整模型内部的特征表示。这种基于机制理解的干预方式,能够更有效地解决代码切换问题,并保持模型的多语言能力。

关键设计:SASFT的关键设计包括:1) 使用稀疏自编码器提取语言特征,并分析其预激活值;2) 设计损失函数,鼓励模型在生成目标语言文本时,保持该语言特征的适当预激活值,避免过度激活;3) 精心选择微调数据集,确保其能够覆盖多种语言和场景,从而提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SASFT方法在五个模型和三种语言上,相比标准监督微调,能够始终将意外的代码切换减少50%以上,并且在四个案例中完全消除了代码切换。更重要的是,SASFT在减少代码切换的同时,还保持甚至提升了模型在六个多语言基准测试上的性能,证明了其在解决代码切换问题上的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要高质量多语言文本生成的场景,例如机器翻译、多语言对话系统、跨语言信息检索等。通过减少LLM中的意外代码切换,可以显著提高生成文本的可读性和可用性,提升用户体验。此外,该方法也有助于提高LLM在多语言环境下的鲁棒性和可靠性,使其能够更好地适应复杂多样的应用需求。

📄 摘要(原文)

Large Language Models (LLMs) have impressive multilingual capabilities, but they suffer from unexpected code-switching, also known as language mixing, which involves switching to unexpected languages in the model response. This problem leads to poor readability and degrades the usability of model responses. However, existing work on this issue lacks a mechanistic analysis and shows limited effectiveness. In this paper, we first provide an in-depth analysis of unexpected code-switching using sparse autoencoders and find that when LLMs switch to a language, the features of that language exhibit excessive pre-activation values. Based on our findings, we propose $\textbf{S}$parse $\textbf{A}$utoencoder-guided $\textbf{S}$upervised $\textbf{F}$ine$\textbf{t}$uning (SASFT), which teaches LLMs to maintain appropriate pre-activation values of specific language features during training. Experiments on five models across three languages demonstrate that SASFT consistently reduces unexpected code-switching by more than 50\% compared to standard supervised fine-tuning, with complete elimination in four cases. Moreover, SASFT maintains or even improves the models' performance on six multilingual benchmarks, showing its effectiveness in addressing code-switching while preserving multilingual capabilities.