MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

📄 arXiv: 2509.26601v2 📥 PDF

作者: Chenxi Whitehouse, Sebastian Ruder, Tony Lin, Oksana Kurylo, Haruka Takagi, Janice Lam, Nicolò Busetto, Denise Diaz, Francisco Guzmán

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-30 (更新: 2025-11-11)

备注: 10 pages, 23 tables, 17 figures


💡 一句话要点

MENLO:提出多语言LLM原生质量评估框架,并提升模型在47种语言上的表现。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 原生质量评估 受众设计 强化学习 奖励塑造

📋 核心要点

  1. 现有LLM在多语言环境下难以保证生成内容的原生质量,缺乏有效的评估和提升方法。
  2. MENLO框架通过受众设计机制,构建了多语言原生质量评估体系,并生成了大规模标注数据集。
  3. 通过强化学习等方法微调LLM评判器,显著提升了其多语言熟练度,并可作为奖励模型进一步优化LLM。

📝 摘要(中文)

确保大型语言模型(LLM)在多种语言中生成具有原生质量的回复是一项挑战。为了解决这个问题,我们引入了MENLO,一个基于受众设计启发机制,将原生回复质量评估操作化的框架。利用MENLO,我们创建了一个包含6423个人工标注的提示-回复偏好对的数据集,涵盖47种语言变体的四个质量维度,并具有高度的标注者间一致性。我们的评估表明,零样本LLM评判器从成对评估和结构化标注规则中获益匪浅,但其性能仍然低于我们数据集上的人工标注者。我们通过强化学习、奖励塑造和多任务学习方法进行了微调,实现了显著的改进。此外,我们表明,经过强化学习训练的评判器可以作为生成奖励模型来提高LLM的多语言熟练程度,尽管与人类判断仍然存在差异。我们的研究结果为可扩展的多语言评估和偏好对齐提供了有希望的方向。我们发布了我们的数据集和评估框架,以支持多语言LLM评估的进一步研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在多种语言环境下生成内容时,难以保证回复具有原生质量的问题。现有的方法缺乏有效的评估框架和高质量的数据集,难以准确评估和提升LLM的多语言能力。现有LLM评判器在多语言环境下的表现与人类标注者存在较大差距,需要进一步优化。

核心思路:论文的核心思路是构建一个基于受众设计(Audience Design)的评估框架MENLO,通过模拟不同受众对LLM回复的偏好,来评估其原生质量。同时,利用人工标注数据和强化学习等技术,训练LLM评判器,使其能够更准确地评估和提升LLM的多语言能力。通过奖励塑造和多任务学习,进一步优化评判器的性能。

技术框架:MENLO框架主要包含以下几个阶段:1) 数据收集:构建包含47种语言变体的提示-回复对数据集,并进行人工标注,标注维度包括流畅性、相关性、准确性和风格。2) 评判器训练:利用标注数据,训练零样本LLM评判器,并使用强化学习、奖励塑造和多任务学习等技术进行微调。3) 奖励模型构建:将训练好的评判器作为奖励模型,用于指导LLM生成更高质量的多语言回复。4) 评估:对比人工标注和LLM评判器的评估结果,分析其差异,并评估MENLO框架的有效性。

关键创新:论文的关键创新在于:1) 提出了基于受众设计的原生质量评估框架MENLO,为多语言LLM评估提供了一种新的视角。2) 构建了大规模的多语言标注数据集,为LLM评判器的训练和评估提供了高质量的数据支撑。3) 探索了强化学习、奖励塑造和多任务学习等技术在LLM评判器训练中的应用,显著提升了其评估准确性。

关键设计:在评判器训练中,使用了强化学习算法,目标是最大化评判器对高质量回复的奖励。奖励函数的设计至关重要,论文采用了奖励塑造技术,逐步引导评判器学习。同时,采用了多任务学习,将不同语言和质量维度的评估任务结合起来,提高评判器的泛化能力。具体的网络结构和参数设置在论文中进行了详细描述,例如使用了特定的预训练语言模型作为评判器的基础模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,零样本LLM评判器在经过成对评估和结构化标注规则的指导后,性能得到了显著提升。通过强化学习、奖励塑造和多任务学习等方法进行微调后,评判器的评估准确性进一步提高。此外,经过强化学习训练的评判器可以作为生成奖励模型,有效提升LLM的多语言熟练程度。

🎯 应用场景

该研究成果可应用于多语言聊天机器人、机器翻译、跨文化交流等领域。通过MENLO框架,可以更有效地评估和提升LLM在不同语言环境下的表现,从而提高用户体验和沟通效率。未来,该框架可以扩展到更多语言和应用场景,促进全球范围内的信息交流和文化理解。

📄 摘要(原文)

Ensuring native-like quality of large language model (LLM) responses across many languages is challenging. To address this, we introduce MENLO, a framework that operationalizes the evaluation of native-like response quality based on audience design-inspired mechanisms. Using MENLO, we create a dataset of 6,423 human-annotated prompt-response preference pairs covering four quality dimensions with high inter-annotator agreement in 47 language varieties. Our evaluation reveals that zero-shot LLM judges benefit significantly from pairwise evaluation and our structured annotation rubrics, yet they still underperform human annotators on our dataset. We demonstrate substantial improvements through fine-tuning with reinforcement learning, reward shaping, and multi-task learning approaches. Additionally, we show that RL-trained judges can serve as generative reward models to enhance LLMs' multilingual proficiency, though discrepancies with human judgment remain. Our findings suggest promising directions for scalable multilingual evaluation and preference alignment. We release our dataset and evaluation framework to support further research in multilingual LLM evaluation.