MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

📄 arXiv: 2509.26601v2 📥 PDF

作者: Chenxi Whitehouse, Sebastian Ruder, Tony Lin, Oksana Kurylo, Haruka Takagi, Janice Lam, Nicolò Busetto, Denise Diaz, Francisco Guzmán

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-30 (更新: 2025-11-11)

备注: 10 pages, 23 tables, 17 figures


💡 一句话要点

MENLO:提出多语言原生质量评估框架,提升LLM在47种语言上的表现。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言评估 大型语言模型 强化学习 奖励模型 偏好学习

📋 核心要点

  1. 现有LLM在多种语言中生成高质量、类母语水平的响应面临挑战,缺乏有效的评估方法。
  2. MENLO框架通过模拟受众设计,构建了多语言评估数据集,并利用强化学习训练LLM评判器。
  3. 实验表明,MENLO框架能有效提升LLM的多语言能力,但与人类判断仍存在差距,未来有提升空间。

📝 摘要(中文)

本文提出了MENLO框架,旨在评估大型语言模型(LLM)在多种语言中生成响应的类母语质量。MENLO基于受众设计启发的机制,实现了对原生质量的评估。利用MENLO,作者构建了一个包含6423个人工标注的提示-响应偏好对的数据集,覆盖47种语言的四个质量维度,并具有较高的人工标注一致性。评估结果表明,零样本LLM评判器在成对评估和结构化标注规则的帮助下表现显著提升,但仍不及人类标注者。通过强化学习、奖励塑造和多任务学习等方法进行微调,性能得到了显著改善。此外,研究表明,经过强化学习训练的评判器可以作为生成式奖励模型来提高LLM的多语言能力,但与人类判断仍存在差异。研究结果为可扩展的多语言评估和偏好对齐提供了有希望的方向。作者发布了数据集和评估框架,以支持多语言LLM评估的进一步研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在多种语言环境下,生成高质量、类母语水平响应的评估问题。现有方法缺乏统一、可扩展的评估框架,难以准确衡量LLM在不同语言中的表现,并且依赖人工评估成本高昂。

核心思路:论文的核心思路是构建一个基于受众设计的评估框架MENLO,通过模拟真实用户场景,让人工标注者对LLM生成的响应进行偏好排序,从而量化LLM的类母语质量。同时,利用这些人工标注数据训练LLM评判器,使其能够自动评估LLM的生成质量。

技术框架:MENLO框架包含以下几个主要阶段:1) 数据收集:收集涵盖47种语言的提示-响应对,并由人工标注者根据四个质量维度(流畅性、相关性、准确性、自然性)进行偏好排序。2) 评判器训练:利用人工标注数据,通过强化学习、奖励塑造和多任务学习等方法,训练LLM评判器,使其能够自动评估LLM的生成质量。3) LLM优化:将训练好的LLM评判器作为奖励模型,用于优化LLM的生成策略,提高其多语言能力。

关键创新:论文的关键创新在于:1) 提出了基于受众设计的MENLO评估框架,能够更准确地衡量LLM的类母语质量。2) 构建了一个大规模的多语言评估数据集,涵盖47种语言,为多语言LLM评估提供了宝贵资源。3) 利用强化学习训练LLM评判器,实现了自动化的多语言评估。

关键设计:在评判器训练方面,论文采用了强化学习算法,并结合奖励塑造技术,以提高训练效率和稳定性。具体来说,论文使用了PPO算法,并设计了基于人工标注偏好数据的奖励函数。此外,论文还尝试了多任务学习方法,将不同语言的评估任务联合训练,以提高评判器的泛化能力。具体参数设置未知。

📊 实验亮点

实验结果表明,零样本LLM评判器在成对评估和结构化标注规则的帮助下表现显著提升,但仍不及人类标注者。通过强化学习、奖励塑造和多任务学习等方法进行微调,性能得到了显著改善。经过强化学习训练的评判器可以作为生成式奖励模型来提高LLM的多语言能力,但与人类判断仍存在差异。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于多语言LLM的开发和评估,帮助开发者更好地了解LLM在不同语言中的表现,并针对性地进行优化。此外,该框架还可用于评估机器翻译系统的质量,以及其他需要生成自然语言文本的应用场景。未来,该研究有望推动多语言自然语言处理技术的发展,促进跨语言交流。

📄 摘要(原文)

Ensuring native-like quality of large language model (LLM) responses across many languages is challenging. To address this, we introduce MENLO, a framework that operationalizes the evaluation of native-like response quality based on audience design-inspired mechanisms. Using MENLO, we create a dataset of 6,423 human-annotated prompt-response preference pairs covering four quality dimensions with high inter-annotator agreement in 47 language varieties. Our evaluation reveals that zero-shot LLM judges benefit significantly from pairwise evaluation and our structured annotation rubrics, yet they still underperform human annotators on our dataset. We demonstrate substantial improvements through fine-tuning with reinforcement learning, reward shaping, and multi-task learning approaches. Additionally, we show that RL-trained judges can serve as generative reward models to enhance LLMs' multilingual proficiency, though discrepancies with human judgment remain. Our findings suggest promising directions for scalable multilingual evaluation and preference alignment. We release our dataset and evaluation framework to support further research in multilingual LLM evaluation.