LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering
作者: Sing Hieng Wong, Hassan Sajjad, A.B. Siddique
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-07
💡 一句话要点
LangFIR:利用单语数据发现稀疏的语言特定特征,用于语言引导。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言引导 稀疏自编码器 单语数据 随机Token过滤 多语言生成
📋 核心要点
- 现有方法依赖多语言或平行数据识别语言特定方向,数据获取成本高昂,限制了语言引导的有效性。
- LangFIR利用单语数据和随机token序列,发现稀疏的语言特定SAE特征,无需依赖昂贵的多语言数据。
- 实验表明,LangFIR在多语言生成控制方面优于现有方法,在多个模型和数据集上取得了最佳的BLEU分数。
📝 摘要(中文)
大型语言模型(LLMs)展现出强大的多语言能力,但可靠地控制其输出语言仍然很困难。表征层面的引导通过在推理时向模型激活添加语言特定的向量来解决这个问题,但识别残差流中的语言特定方向通常依赖于多语言或平行数据,而这些数据的获取成本可能很高。稀疏自编码器(SAEs)将残差激活分解为可解释的稀疏特征方向,并为这种搜索提供了一个自然的基础,但现有的基于SAE的方法面临着相同的数据约束。我们引入了LangFIR(通过随机token过滤进行语言特征识别),这是一种仅使用少量单语数据和随机token序列来发现语言特定的SAE特征的方法。许多由目标语言输入持续激活的SAE特征并不编码语言身份。随机token序列会暴露这些与语言无关的特征,从而允许LangFIR过滤掉它们并隔离出一组稀疏的语言特定特征。我们表明,这些特征非常稀疏,对其目标语言具有高度选择性,并且具有因果重要性:定向消融仅会增加相应语言的交叉熵损失。使用这些特征来构建用于多语言生成控制的引导向量,LangFIR在三个模型(Gemma 3 1B、Gemma 3 4B和Llama 3.1 8B)、三个数据集和十二种目标语言上实现了最佳的平均准确率BLEU,优于最强的单语基线,甚至超过了依赖于平行数据的方法。我们的结果表明,多语言LLM中的语言身份定位在一组稀疏的特征方向中,这些特征方向可以通过单语数据发现。
🔬 方法详解
问题定义:现有方法在控制大型语言模型(LLMs)的输出语言时面临挑战,尤其是在识别语言特定的表征方向时,通常需要依赖多语言或平行语料库。这些语料库的获取成本高昂,限制了语言引导技术的可扩展性和实用性。因此,如何在仅使用单语数据的情况下,有效地识别和利用语言特定的特征,成为一个亟待解决的问题。
核心思路:LangFIR的核心思路是利用稀疏自编码器(SAEs)分解LLM的残差激活,并结合随机token过滤技术,从单语数据中识别出真正具有语言特异性的特征。通过引入随机token序列,LangFIR能够区分并过滤掉那些由目标语言输入激活,但实际上与语言身份无关的特征,从而提取出更纯粹、更具代表性的语言特定特征。
技术框架:LangFIR方法主要包含以下几个阶段:1) 使用单语数据训练稀疏自编码器(SAE),以分解LLM的残差激活。2) 利用目标语言的单语数据和随机token序列,分别激活SAE特征。3) 通过比较两种激活模式,过滤掉那些被随机token序列激活的特征,从而保留语言特定的特征。4) 使用这些语言特定特征构建引导向量,用于控制LLM的多语言生成。
关键创新:LangFIR的关键创新在于其利用随机token过滤技术,从单语数据中发现语言特定特征的能力。与现有方法相比,LangFIR无需依赖昂贵的多语言或平行语料库,降低了数据需求,提高了可扩展性。此外,LangFIR能够识别出真正具有语言特异性的特征,避免了将与语言无关的特征误用于语言引导。
关键设计:LangFIR的关键设计包括:1) 使用L1正则化来训练稀疏自编码器,以获得稀疏的特征表示。2) 设计随机token序列,用于激活与语言无关的特征。3) 通过比较目标语言数据和随机token序列的激活模式,设定阈值来过滤特征。4) 使用过滤后的语言特定特征构建引导向量,并通过调整向量的权重来控制语言生成。
🖼️ 关键图片
📊 实验亮点
LangFIR在Gemma 3 1B、Gemma 3 4B和Llama 3.1 8B三个模型、三个数据集和十二种目标语言上进行了实验,结果表明LangFIR取得了最佳的平均准确率BLEU,优于最强的单语基线,甚至超过了依赖于平行数据的方法。在某些情况下,LangFIR的性能提升幅度超过了使用平行数据的基线方法。
🎯 应用场景
LangFIR在多语言自然语言处理领域具有广泛的应用前景,例如:提升多语言机器翻译的质量和可控性,实现特定语言风格的文本生成,以及增强跨语言信息检索的准确性。该方法还可以应用于低资源语言的语言模型训练,降低数据依赖性,促进多语言技术的普及。
📄 摘要(原文)
Large language models (LLMs) show strong multilingual capabilities, yet reliably controlling the language of their outputs remains difficult. Representation-level steering addresses this by adding language-specific vectors to model activations at inference time, but identifying language-specific directions in the residual stream often relies on multilingual or parallel data that can be expensive to obtain. Sparse autoencoders (SAEs) decompose residual activations into interpretable, sparse feature directions and offer a natural basis for this search, yet existing SAE-based approaches face the same data constraint. We introduce LangFIR (Language Feature Identification via Random-token Filtering), a method that discovers language-specific SAE features using only a small amount of monolingual data and random-token sequences. Many SAE features consistently activated by target-language inputs do not encode language identity. Random-token sequences surface these language-agnostic features, allowing LangFIR to filter them out and isolate a sparse set of language-specific features. We show that these features are extremely sparse, highly selective for their target language, and causally important: directional ablation increases cross-entropy loss only for the corresponding language. Using these features to construct steering vectors for multilingual generation control, LangFIR achieves the best average accuracy BLEU across three models (Gemma 3 1B, Gemma 3 4B, and Llama 3.1 8B), three datasets, and twelve target languages, outperforming the strongest monolingual baseline by up to and surpassing methods that rely on parallel data. Our results suggest that language identity in multilingual LLMs is localized in a sparse set of feature directions discoverable with monolingual data. Code is available atthis https URL.