Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

📄 arXiv: 2603.10351v1 📥 PDF

作者: Hongbin Zhang, Kehai Chen, Xuefen Bai, Youcheng Pan, Yang Xiang, Jinpeng Wang, Min Zhang

分类: cs.CL, cs.AI

发布日期: 2026-03-11

备注: Under Review


💡 一句话要点

DIBJudge:通过解耦信息瓶颈缓解多语言LLM评估中的翻译腔偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言评估 翻译腔偏差 信息瓶颈 解耦表示学习 大型语言模型

📋 核心要点

  1. 现有大型语言模型在多语言评估中存在翻译腔偏差,即偏好机器翻译文本,尤其在低资源语言中。
  2. DIBJudge通过变分信息瓶颈学习判断关键表示,并将偏差因素隔离到独立分支,实现有效解耦。
  3. 实验表明DIBJudge在多语言奖励建模和翻译腔偏差评估中优于基线,显著缓解了翻译腔偏差。

📝 摘要(中文)

大型语言模型(LLMs)已成为多语言评估的标准,但它们表现出严重的系统性翻译腔偏差。本文将翻译腔偏差定义为LLMs系统性地偏爱机器翻译文本而非人工撰写的参考文本,尤其是在低资源语言中。我们将这种偏差归因于与(i)与英语的潜在流形对齐和(ii)跨语言可预测性的虚假相关性。为了减轻这种偏差,我们提出了一种鲁棒的微调框架DIBJudge,该框架通过变分信息压缩学习最小充分的、判断关键的表示,同时将虚假因素显式地隔离到专用的偏差分支中。此外,我们还引入了交叉协方差惩罚,以显式地抑制鲁棒表示和偏差表示之间的统计依赖性,从而鼓励有效的解耦。在多语言奖励建模基准和专门的翻译腔偏差评估套件上的广泛评估表明,所提出的DIBJudge始终优于强大的基线,并大大减轻了翻译腔偏差。

🔬 方法详解

问题定义:论文旨在解决多语言大型语言模型(LLMs)在作为评估器时存在的“翻译腔偏差”问题。具体来说,LLMs倾向于给机器翻译的文本更高的分数,而不是人工撰写的参考文本,尤其是在低资源语言中。这种偏差使得LLMs的评估结果不可靠,影响了其在多语言自然语言处理任务中的应用。现有的方法未能有效解决这一问题,因为它们没有充分考虑到翻译腔偏差的潜在原因。

核心思路:论文的核心思路是通过解耦信息瓶颈(Disentangled Information Bottleneck, DIB)来学习一种对翻译腔偏差不敏感的表示。DIBJudge框架旨在学习一个“判断关键”的表示,该表示包含做出正确判断所需的最少信息,同时将与翻译腔相关的“虚假因素”隔离到单独的偏差分支中。通过这种方式,模型可以专注于文本的真实质量,而不是受到翻译风格的影响。

技术框架:DIBJudge框架包含以下主要模块:1) 输入编码器:将输入文本编码成潜在表示。2) 鲁棒表示分支:通过变分信息瓶颈学习判断关键的鲁棒表示。3) 偏差表示分支:学习与翻译腔相关的偏差表示。4) 交叉协方差惩罚:显式地抑制鲁棒表示和偏差表示之间的统计依赖性。5) 奖励预测器:基于鲁棒表示预测奖励分数。

关键创新:该论文的关键创新在于使用解耦信息瓶颈来缓解翻译腔偏差。与现有方法相比,DIBJudge能够显式地建模和分离翻译腔偏差,从而学习到更鲁棒的文本表示。此外,交叉协方差惩罚进一步促进了鲁棒表示和偏差表示之间的解耦,提高了模型的性能。

关键设计:DIBJudge使用变分自编码器(VAE)来实现信息瓶颈。鲁棒表示分支的目标是最小化互信息I(X; Z),其中X是输入文本,Z是鲁棒表示。偏差表示分支的目标是学习与翻译腔相关的特征。交叉协方差惩罚通过最小化鲁棒表示和偏差表示之间的协方差来促进解耦。损失函数包括重构损失、KL散度损失和交叉协方差惩罚项。具体参数设置(如KL散度系数、交叉协方差惩罚系数)需要根据实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DIBJudge在多语言奖励建模基准和专门的翻译腔偏差评估套件上均优于强大的基线模型。具体来说,DIBJudge在缓解翻译腔偏差方面取得了显著的提升,并且在保持整体性能的同时,能够更公平地评估不同语言的文本质量。实验数据表明,DIBJudge能够有效降低模型对机器翻译文本的偏好。

🎯 应用场景

DIBJudge的研究成果可应用于改进多语言自然语言生成模型的评估,例如机器翻译、文本摘要等。通过减少翻译腔偏差,可以更准确地评估模型的真实性能,从而促进相关技术的发展。此外,该方法还可以应用于其他存在偏差问题的自然语言处理任务,例如情感分析、文本分类等,具有广泛的应用前景。

📄 摘要(原文)

Large language models (LLMs) have become a standard for multilingual evaluation, yet they exhibit a severe systematic translationese bias. In this paper, translationese bias is characterized as LLMs systematically favoring machine-translated text over human-authored references, particularly in low-resource languages. We attribute this bias to spurious correlations with (i) latent manifold alignment with English and (ii) cross-lingual predictability. To mitigate this bias, we propose DIBJudge, a robust fine-tuning framework that learns a minimally sufficient, judgment-critical representation via variational information compression, while explicitly isolating spurious factors into the dedicated bias branch. Furthermore, we incorporate a cross-covariance penalty that explicitly suppresses statistical dependence between robust and bias representations, thereby encouraging effective disentanglement. Extensive evaluations on multilingual reward modeling benchmarks and a dedicated translationese bias evaluation suite demonstrate that the proposed DIBJudge consistently outperforms strong baselines and substantially mitigates translationese bias.