PARIKSHA: A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data
作者: Ishaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan, Sunayana Sitaram
分类: cs.CL
发布日期: 2024-06-21 (更新: 2024-10-18)
备注: Accepted to EMNLP 2024
💡 一句话要点
PARIKSHA:大规模研究人类与LLM评估器在多语言和多文化数据上的一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言LLM 评估一致性 人工评估 LLM评估 印度语言 偏差分析 成对比较 直接评估
📋 核心要点
- 现有多语言LLM评估缺乏充分的语言多样性基准,且预训练数据存在污染,文化细微差别考虑不足。
- 论文通过大规模人类和LLM评估,对比分析二者在多语言、多文化环境下的评估一致性。
- 实验表明,GPT-4o和Llama-3 70B在多种印度语言上表现最佳,但直接评估一致性低于成对比较。
📝 摘要(中文)
由于缺乏具有足够语言多样性的基准、LLM预训练数据中流行基准的污染以及翻译基准中缺乏本地文化细微差别等多种因素,多语言大型语言模型(LLM)的评估具有挑战性。本文研究了多语言、多文化环境中的人类和基于LLM的评估。我们评估了10种印度语言的30个模型,进行了9万次人工评估和3万次基于LLM的评估,发现GPT-4o和Llama-3 70B等模型在大多数印度语言中表现始终最佳。我们为两种评估设置(成对比较和直接评估)构建了排行榜,并分析了人类和LLM之间的一致性。我们发现,人类和LLM在成对设置中表现出相当好的一致性,但直接评估的一致性下降,尤其是在孟加拉语和奥迪亚语等语言中。我们还检查了人类和基于LLM的评估中的各种偏差,并发现了基于GPT的评估器中存在自我偏差的证据。我们的工作为扩大LLM的多语言评估迈出了重要一步。
🔬 方法详解
问题定义:现有方法在评估多语言LLM时,面临着缺乏足够语言多样性的基准数据集,以及现有基准数据集可能被LLM预训练数据污染的问题。此外,翻译后的基准数据集往往缺乏对本地文化细微差别的考虑,导致评估结果可能不准确,无法真实反映LLM在不同文化背景下的表现。
核心思路:论文的核心思路是通过大规模的人工评估和基于LLM的自动评估相结合的方式,对多语言LLM进行更全面、更可靠的评估。通过对比人工评估和LLM评估的结果,分析两者之间的一致性,从而发现LLM评估的潜在偏差和局限性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择30个LLM模型和10种印度语言;2) 构建包含多语言、多文化数据的评估数据集;3) 进行9万次人工评估和3万次基于LLM的评估;4) 采用成对比较和直接评估两种评估方式;5) 分析人工评估和LLM评估结果的一致性;6) 检查评估过程中的各种偏差。
关键创新:该论文的关键创新在于其大规模的多语言、多文化评估方法,以及对人工评估和LLM评估一致性的深入分析。通过对比两种评估方式的结果,论文揭示了LLM评估在不同语言和文化背景下的潜在偏差,为未来多语言LLM的评估提供了重要的参考。
关键设计:在评估过程中,论文采用了两种评估方式:成对比较和直接评估。成对比较是指让评估者比较两个模型在同一任务上的表现,并选择表现更好的一个。直接评估是指让评估者直接对模型在单个任务上的表现进行评分。此外,论文还对评估数据进行了清洗和过滤,以确保评估结果的准确性。在偏差分析方面,论文特别关注了GPT系列模型作为评估器时可能存在的自我偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o和Llama-3 70B在大多数印度语言中表现最佳。人类和LLM在成对比较设置中表现出较好的一致性,但在直接评估中一致性下降,尤其是在孟加拉语和奥迪亚语等语言中。研究还发现,基于GPT的评估器存在自我偏差。
🎯 应用场景
该研究成果可应用于多语言LLM的开发和评估,帮助开发者更好地了解模型在不同语言和文化背景下的表现,从而开发出更具通用性和适应性的LLM。此外,该研究还可以为多语言LLM的基准测试和排行榜构建提供参考,促进多语言LLM领域的健康发展。
📄 摘要(原文)
Evaluation of multilingual Large Language Models (LLMs) is challenging due to a variety of factors -- the lack of benchmarks with sufficient linguistic diversity, contamination of popular benchmarks into LLM pre-training data and the lack of local, cultural nuances in translated benchmarks. In this work, we study human and LLM-based evaluation in a multilingual, multi-cultural setting. We evaluate 30 models across 10 Indic languages by conducting 90K human evaluations and 30K LLM-based evaluations and find that models such as GPT-4o and Llama-3 70B consistently perform best for most Indic languages. We build leaderboards for two evaluation settings - pairwise comparison and direct assessment and analyze the agreement between humans and LLMs. We find that humans and LLMs agree fairly well in the pairwise setting but the agreement drops for direct assessment evaluation especially for languages such as Bengali and Odia. We also check for various biases in human and LLM-based evaluation and find evidence of self-bias in the GPT-based evaluator. Our work presents a significant step towards scaling up multilingual evaluation of LLMs.