Language-Aware Token Boosting: LLM Language Confusion Reduction Without Tuning

📄 arXiv: 2606.08994v1 📥 PDF

作者: Trapoom Ukarapol, Pakhapoom Sarapat, Nut Chukamphaeng

分类: cs.CL

发布日期: 2026-06-08

备注: ACL2026 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

提出无调优的语言感知令牌增强方法以减少语言混淆

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 语言混淆 无调优 多语言对齐 文本生成

📋 核心要点

  1. 现有方法通常依赖微调来解决大型语言模型在生成非英语文本时的语言混淆问题,效率低下且资源消耗大。
  2. 本文提出了一种无调优的语言感知令牌增强方法,通过对目标语言相关的令牌施加扰动来减少语言混淆。
  3. 实验结果显示,所提方法在多语言对齐方面表现优异,显著降低了语言混淆,同时保持了摘要质量。

📝 摘要(中文)

大型语言模型(LLMs)在生成非英语文本时,常常表现出语言混淆现象。现有方法通常依赖于微调来缓解这一问题。本文提出了一种无调优的范式来减少语言混淆,提出了两种方法:语言感知令牌增强(LATB),对与目标语言相关的令牌施加有针对性的扰动;自适应语言感知令牌增强(Adaptive-LATB),根据模型对目标语言的信心动态调整这些扰动。实验表明,这些方法有效改善了多语言对齐,减少了语言混淆,同时保持了摘要质量,无需额外的微调。我们的代码已公开可用。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在生成非英语文本时出现的语言混淆问题。现有方法依赖于微调,导致效率低下和资源浪费。

核心思路:论文提出了一种无调优的范式,通过语言感知令牌增强(LATB)和自适应语言感知令牌增强(Adaptive-LATB)来减少语言混淆。LATB通过对目标语言相关的令牌施加扰动,而Adaptive-LATB则根据模型对目标语言的信心动态调整这些扰动。

技术框架:整体架构包括两个主要模块:首先是LATB模块,负责施加扰动;其次是Adaptive-LATB模块,负责动态调整扰动。整个流程不需要额外的微调,直接在生成过程中应用。

关键创新:最重要的技术创新在于提出了无调优的语言感知令牌增强方法,与传统依赖微调的方法本质上不同,显著提高了效率和灵活性。

关键设计:在设计中,LATB和Adaptive-LATB的扰动策略是根据模型的输出信心进行调整的,确保了对目标语言的有效增强,同时保持了生成文本的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提方法在多语言对齐方面显著优于传统微调方法,减少语言混淆的同时,摘要质量保持不变。具体性能数据未提供,需进一步查阅原文以获取详细信息。

🎯 应用场景

该研究的潜在应用领域包括多语言文本生成、机器翻译和跨语言信息检索等。通过减少语言混淆,提升了多语言模型的实用性和用户体验,未来可能在全球化的内容生成和交流中发挥重要作用。

📄 摘要(原文)

Large language models (LLMs) sometimes exhibit language confusion when generating non-English text. Existing approaches typically rely on fine-tuning to mitigate this issue. In contrast, we propose a tuning-free paradigm for reducing language confusion. Within this paradigm, we introduce two methods: Language-Aware Token Boosting (LATB), which applies targeted perturbations to tokens associated with the desired language, and Adaptive Language-Aware Token Boosting (Adaptive-LATB), which dynamically adjusts these perturbations based on the model's confidence in the intended language. Experiments demonstrate that our methods effectively improve multilingual alignment by reducing language confusion, while maintain the summarization quality without requiring any additional fine-tuning. Our code is publicly available. https://github.com/scbdatax/genai-datax-language-aware-token-boosting.