TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models

作者: Jinho Choo, JunSeung Lee, Jimyeong Kim, Yeeho Song, S. K. Hong, Yeong-Dae Kwon

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-29

备注: Accepted to the main conference of ACL 2026

💡 一句话要点

提出TLPO，通过Token级策略优化缓解大语言模型中的语言混淆问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语言混淆 策略优化 Token级别 多语言 微调 语言一致性 TLPO

📋 核心要点

现有序列级微调方法在缓解LLM语言混淆时，可能损害模型通用能力，需要更细粒度的解决方案。
TLPO通过识别并修正易出错的token，实现局部更新，从而在token级别缓解语言混淆问题。
实验表明，TLPO在提升语言一致性的同时，能够保持下游任务的准确性，优于现有基线方法。

📝 摘要（中文）

大型语言模型(LLMs)展现出强大的多语言能力，但经常无法持续生成目标语言的响应，表现出语言混淆现象。现有的基于序列级微调的缓解方法，如DPO、ORPO和GRPO，作用于整个响应序列，可能导致模型通用能力的意外退化，因此需要更细粒度的替代方案。为此，我们提出了Token级策略优化(TLPO)，这是一种通过局部化的token级更新来缓解语言混淆的微调框架。TLPO识别易出错的位置，探索替代候选token，并使用定制的目标函数更新策略，以在细粒度级别抑制诱发错误的输出。这种选择性干预能够有效缓解语言混淆，而不会损害模型的通用能力。在多种语言的多个多语言LLM上的实验表明，TLPO在提高语言一致性方面显著优于基线，同时保持了下游任务的准确性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型中存在的语言混淆问题，即模型在多语言环境中无法始终如一地生成目标语言的响应。现有基于序列级微调的方法，如DPO等，虽然可以缓解语言混淆，但由于其作用于整个序列，可能导致模型通用能力的下降，无法精细化地针对错误token进行修正。

核心思路：TLPO的核心思路是在token级别进行策略优化，通过识别容易导致语言混淆的token位置，并探索替代的候选token，从而在细粒度上抑制错误输出。这种局部化的更新方式旨在避免对模型整体能力的过度干预，从而在缓解语言混淆的同时，保持模型的通用性。

技术框架：TLPO框架主要包含以下几个阶段：1) 错误位置识别：识别模型容易产生语言混淆的token位置。2) 候选token探索：针对识别出的错误位置，探索替代的候选token。3) 策略更新：使用定制的目标函数，基于候选token的优劣，更新模型策略，抑制错误输出。整个流程旨在实现对语言混淆的精准干预。

关键创新：TLPO最关键的创新在于其token级别的策略优化。与现有序列级别的优化方法不同，TLPO能够更加精细地控制模型的输出，避免了对模型整体能力的过度调整。这种细粒度的优化方式使得TLPO能够在缓解语言混淆的同时，更好地保持模型的通用能力。

关键设计：TLPO的关键设计包括：1) 错误位置识别策略：具体如何识别易出错的token位置，可能涉及到对模型输出概率分布的分析。2) 候选token生成策略：如何生成合适的候选token，可能涉及到对词汇表的搜索或使用其他生成模型。3) 定制的目标函数：如何设计目标函数，以有效地评估候选token的优劣，并指导模型策略的更新。这些细节决定了TLPO的最终性能，具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TLPO在多个多语言LLM上显著优于基线方法，在提高语言一致性的同时，保持了下游任务的准确性。具体的性能提升数据未知，但摘要强调了TLPO在缓解语言混淆和保持模型通用能力方面的有效性。TLPO的优势在于其token级别的优化策略，能够更精细地控制模型输出。

🎯 应用场景

TLPO技术可应用于各种需要多语言支持的大型语言模型，例如多语言聊天机器人、机器翻译系统和跨语言信息检索系统。通过缓解语言混淆问题，TLPO可以提高这些应用的用户体验和可靠性，并促进更自然和流畅的跨语言交流。该技术还有潜力应用于其他需要细粒度控制模型输出的场景。

📄 摘要（原文）

Large language models (LLMs) demonstrate strong multilingual capabilities, yet often fail to consistently generate responses in the intended language, exhibiting a phenomenon known as language confusion. Prior mitigation approaches based on sequence-level fine-tuning, such as DPO, ORPO, and GRPO, operate at the level of entire responses and can lead to unintended degradation of general model capabilities, motivating the need for more fine-grained alternatives. To address this, we introduce Token-Level Policy Optimization (TLPO), a fine-tuning framework designed to mitigate language confusion through localized, token-level updates. TLPO identifies error-prone positions, explores alternative candidate tokens, and updates the policy using a tailored objective to suppress error-inducing outputs at a granular level. This selective intervention enables effective mitigation of language confusion without compromising the model's general abilities. Experiments on multiple multilingual LLMs across diverse languages demonstrate that TLPO significantly outperforms baselines in improving language consistency while preserving downstream task accuracy.

TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理