Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax
作者: Zeli Su, Ziyin Zhang, Zhou Liu, Xuexian Song, Zhankai Xu, Longfei Zheng, Xiaolu Zhang, Rong Fu, Guixian Xu, Wentao Zhang
分类: cs.CL, cs.LG
发布日期: 2026-05-14
备注: ACL 2026 Findings
💡 一句话要点
提出基于语义奖励的强化学习方法,解决低资源语言扩展中的“对齐税”问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 低资源语言 机器翻译 语义奖励 对齐税 语言模型 策略优化
📋 核心要点
- 现有低资源语言扩展方法,如监督微调,常导致“对齐税”,即目标语言能力提升牺牲通用能力。
- 论文提出基于语义奖励的强化学习方法,通过优化嵌入级别的语义空间对齐,鼓励语义保持。
- 实验表明,该方法在藏汉翻译和标题生成任务上,有效减轻了对齐税,并提升了语义质量和泛化能力。
📝 摘要(中文)
本文提出了一种基于语义空间对齐范式的强化学习方法,该方法利用Group Relative Policy Optimization (GRPO) 通过嵌入级别的语义奖励而非似然最大化来优化模型。这种目标鼓励通过灵活的实现来保持语义,从而实现可控的更新,减少对预训练知识的破坏性干扰。我们在藏汉机器翻译和藏语标题生成任务上评估了该方法。实验表明,我们的方法在获得低资源语言能力的同时,显著减轻了对齐税,比监督微调 (SFT) 更有效地保留了一般能力。尽管产生的表面重叠较少,但语义强化学习在开放式生成中产生了更高的语义质量和偏好,并且少样本迁移结果表明,它在有限的监督下学习了更具可迁移性和鲁棒性的表示。总的来说,我们的研究表明,使用语义奖励的强化学习为包容性的低资源语言扩展提供了一条更安全、更可靠的途径。
🔬 方法详解
问题定义:现有的大型语言模型扩展到低资源语言时,通常采用监督微调(SFT)。然而,SFT 容易导致“对齐税”,即在目标语言上取得进展的同时,模型在通用能力上出现灾难性遗忘。这是因为 SFT 强制模型在狭窄且有偏差的数据分布上进行 token 级别的表面模仿,缺乏灵活性。
核心思路:本文的核心思路是利用强化学习,并使用语义空间中的奖励来指导模型的训练,而不是直接模仿 token 序列。通过优化嵌入级别的语义表示,鼓励模型在保持语义一致性的前提下,进行更灵活的表达,从而减少对预训练知识的破坏性干扰。这种方法旨在实现可控的更新,避免过度拟合低资源语言的表面特征。
技术框架:整体框架包括一个预训练的大型语言模型,以及一个强化学习的优化过程。具体而言,论文采用了 Group Relative Policy Optimization (GRPO) 算法。模型首先生成一个候选的翻译或标题,然后通过一个语义评估器(例如,预训练的语言模型)来计算其语义表示。GRPO 算法根据候选生成的语义表示与目标语义表示之间的相似度来计算奖励,并使用该奖励来更新模型的策略。
关键创新:最重要的创新点在于使用语义奖励来指导强化学习过程,而不是传统的 token 级别的监督信号。这种方法允许模型在语义空间中进行探索,学习更鲁棒和泛化的表示,从而减轻了对齐税。与 SFT 相比,该方法不强制模型进行精确的 token 级别的模仿,而是鼓励模型学习语义层面的对应关系。
关键设计:论文使用了 Group Relative Policy Optimization (GRPO) 作为强化学习算法。GRPO 通过比较多个候选生成的相对优劣来更新策略,从而提高了学习的效率和稳定性。语义奖励的计算依赖于预训练的语言模型,例如,可以使用 Sentence-BERT 来计算候选生成和目标文本的嵌入向量,并使用余弦相似度作为奖励信号。此外,论文还可能涉及到一些超参数的调整,例如,奖励的缩放因子、学习率等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在藏汉机器翻译和藏语标题生成任务上,显著减轻了“对齐税”,在保留通用能力方面优于监督微调 (SFT)。尽管表面重叠较少,但语义强化学习在开放式生成中产生了更高的语义质量和用户偏好。少样本迁移实验也表明,该方法学习到了更具可迁移性和鲁棒性的表示。
🎯 应用场景
该研究成果可应用于低资源语言的机器翻译、文本生成等领域,有助于打破语言壁垒,促进信息平等。通过减轻“对齐税”,可以更安全、更可靠地将大型语言模型扩展到更多语言,提升模型在各种语言环境下的通用性和实用性,具有重要的社会价值和经济潜力。
📄 摘要(原文)
Extending large language models (LLMs) to low-resource languages often incurs an "alignment tax": improvements in the target language come at the cost of catastrophic forgetting in general capabilities. We argue that this trade-off arises from the rigidity of supervised fine-tuning (SFT), which enforces token-level surface imitation on narrow and biased data distributions. To address this limitation, we propose a semantic-space alignment paradigm powered by Group Relative Policy Optimization (GRPO), where the model is optimized using embedding-level semantic rewards rather than likelihood maximization. This objective encourages meaning preservation through flexible realizations, enabling controlled updates that reduce destructive interference with pretrained knowledge. We evaluate our approach on Tibetan-Chinese machine translation and Tibetan headline generation. Experiments show that our method acquires low-resource capabilities while markedly mitigating alignment tax, preserving general competence more effectively than SFT. Despite producing less rigid surface overlap, semantic RL yields higher semantic quality and preference in open-ended generation, and few-shot transfer results indicate that it learns more transferable and robust representations under limited supervision. Overall, our study demonstrates that reinforcement learning with semantic rewards provides a safer and more reliable pathway for inclusive low-resource language expansion.