Source-Grounded Semantic Reinforcement Learning for Low-Resource Target-Language Generation

📄 arXiv: 2605.29502v1 📥 PDF

作者: Zeli Su, Ziyin Zhang, Zewei Pan, Zhou Liu, Dingcheng Huang, Dehan Li, Zhankai Xu, Longfei Zheng, Xiaolu Zhang, Jun Zhou, Wentao Zhang

分类: cs.CL, cs.AI

发布日期: 2026-05-28


💡 一句话要点

提出Source-Grounded Semantic RL,解决低资源目标语言生成中平行数据稀缺问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 低资源翻译 强化学习 语义奖励 跨语言生成 单语数据利用

📋 核心要点

  1. 低资源目标语言生成面临平行语料不足的挑战,难以有效利用高资源的源语言单语数据。
  2. SG-SRL框架通过跨语言语义奖励模型,将源语言单语数据转化为目标语言生成的语义监督信号。
  3. 实验表明,SG-SRL在汉泰翻译任务中,相比冷启动的监督微调,显著提升了语义的准确性和事实覆盖率。

📝 摘要(中文)

低资源目标语言生成通常受限于稀缺的平行数据,而高资源源语言的单语数据虽然丰富,但难以通过标准的监督微调来利用。我们提出了Source-Grounded Semantic Reinforcement Learning (SG-SRL),一个资源利用框架,将源语言单语数据转换为跨语言语义监督,用于目标语言生成。SG-SRL使用跨语言语义奖励模型在源语言数据上执行无参考强化学习(RL),该奖励模型由一个跨语言重排序器实例化,用于评估源输入和目标语言生成之间的语义相关性。虽然这会导致严重的基于冗余的奖励利用,但使用小型平行语料库的轻量级恢复阶段可以恢复流畅性、简洁性和任务格式,同时保留语义增益。在汉泰生成上的实验表明,SG-SRL 改进了语义基础和事实覆盖,优于冷启动 SFT。对长文本迁移和基于藏语嵌入的奖励的额外分析阐明了 SG-SRL 的泛化行为,并表明基于编码器的语义奖励可以在实际的低资源语言环境中替代基于 LLM 的重排序器。

🔬 方法详解

问题定义:论文旨在解决低资源目标语言生成任务中,平行语料匮乏的问题。现有的监督微调方法难以有效利用高资源的源语言单语数据,导致生成质量不高,语义表达不准确。

核心思路:核心思路是将源语言单语数据转化为跨语言的语义监督信号,从而指导目标语言的生成。通过强化学习,鼓励模型生成与源语言输入在语义上相关的目标语言文本。这样可以有效利用源语言的丰富资源,弥补目标语言数据的不足。

技术框架:SG-SRL框架主要包含以下几个阶段:1) 使用源语言数据进行强化学习,目标是最大化跨语言语义奖励;2) 跨语言语义奖励模型,通过跨语言重排序器评估源语言输入和目标语言生成之间的语义相关性;3) 使用少量平行语料进行恢复阶段,提升生成文本的流畅性和简洁性,并符合任务格式。

关键创新:该方法的核心创新在于利用跨语言语义奖励模型,将源语言的单语数据转化为目标语言生成的监督信号。通过强化学习,模型能够学习到如何生成与源语言输入在语义上相关的目标语言文本,从而提升生成质量。此外,使用轻量级的恢复阶段,解决了强化学习可能导致的冗余问题。

关键设计:跨语言语义奖励模型是关键设计之一,它通过跨语言重排序器实现,用于评估源语言输入和目标语言生成之间的语义相关性。重排序器可以使用基于LLM的模型或基于Encoder的模型。此外,恢复阶段使用少量平行语料,通过监督学习微调模型,以提升生成文本的流畅性和简洁性。奖励函数的设计也至关重要,需要平衡语义相关性和文本质量。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SG-SRL在汉泰翻译任务中,相比冷启动的监督微调,显著提升了语义的准确性和事实覆盖率。此外,研究还分析了长文本迁移和基于藏语嵌入的奖励,验证了SG-SRL的泛化能力,并表明基于编码器的语义奖励可以在低资源语言环境中替代基于LLM的重排序器。

🎯 应用场景

该研究成果可应用于机器翻译、跨语言信息检索、多语言摘要等领域,尤其适用于低资源语言场景。通过有效利用高资源语言的单语数据,可以显著提升低资源语言的生成质量,降低对平行语料的依赖,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Low-resource target-language generation is often limited by scarce parallel data, while high-resource source-language monolingual data is abundant but difficult to use with standard supervised fine-tuning. We propose Source-Grounded Semantic Reinforcement Learning (SG-SRL), a resource-utilization framework that converts source-language monolingual data into cross-lingual semantic supervision for target-language generation. SG-SRL performs reference-free reinforcement learning (RL) on source-language data using a cross-lingual semantic reward model, instantiated by a cross-lingual reranker that scores the semantic relevance between the source input and the target-language generation. While this induces severe verbosity-based reward hacking, a lightweight recovery stage using a small parallel corpus restores fluency, conciseness, and task format while preserving the semantic gains. Experiments on Chinese-to-Thai generation show that SG-SRL improves semantic grounding and factual coverage over cold-start SFT. Additional analyses on long-form transfer and Tibetan embedding-based rewards clarify the generalization behavior of SG-SRL and show that an encoder-based semantic reward can substitute for an LLM-based reranker in a realistic low-resource language setting.