REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities

📄 arXiv: 2503.13102v2 📥 PDF

作者: Alexander Pugachev, Alena Fenogenova, Vladislav Mikhailov, Ekaterina Artemova

分类: cs.CL

发布日期: 2025-03-17 (更新: 2025-06-15)

备注: To appear at SIGSLAV 2025


💡 一句话要点

提出REPA数据集,评估LLM在俄语环境下的文本生成和判断能力,揭示俄语LLM Judge的性能差距。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Judge 俄语 文本生成 错误类型标注 数据集 人工评估 语言模型评估

📋 核心要点

  1. 现有研究主要集中在英语环境下的LLM Judge,缺乏对其他语言(如俄语)的深入评估。
  2. 论文构建了俄语错误类型标注数据集REPA,并利用人类标注偏好来评估LLM在俄语环境下的生成和判断能力。
  3. 实验结果表明,俄语LLM Judge的性能与英语存在差距,但人类和LLM偏好排名存在部分一致性。

📝 摘要(中文)

本文提出了俄语错误类型标注数据集(REPA),用于评估大型语言模型(LLM)在俄语环境下的文本生成和判断能力。REPA数据集包含1000个用户查询和2000个LLM生成的回复。人工标注者对每个回复对进行了偏好标注,涵盖十种特定错误类型以及整体偏好。研究使用基于人类偏好的三种评分系统对六个生成式LLM在不同错误类型上进行排序。同时,使用八个LLM Judge在零样本和少样本设置下评估回复。分析了LLM Judge的表现以及位置和长度偏差。研究结果表明,俄语LLM Judge的性能与英语存在显著差距。然而,基于人类和LLM偏好的排名显示出部分一致性,表明虽然当前的LLM Judge在俄语的细粒度评估方面存在困难,但仍有改进的潜力。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在俄语环境下的文本生成质量和判断能力。现有方法主要集中在英语环境,缺乏对俄语等其他语言的有效评估,导致LLM在俄语环境下的性能表现未知。此外,现有LLM Judge在细粒度错误类型判断方面可能存在不足,无法准确反映人类偏好。

核心思路:论文的核心思路是通过构建一个专门针对俄语的错误类型标注数据集(REPA),并结合人类标注的偏好信息,来评估LLM在俄语环境下的生成质量和判断能力。通过比较不同LLM的生成结果和LLM Judge的判断结果,分析LLM Judge在俄语环境下的性能表现,并揭示其与人类偏好之间的差距。

技术框架:整体框架包括以下几个主要步骤:1) 构建REPA数据集:收集用户查询,并使用多个LLM生成回复;2) 人工标注:对LLM生成的回复进行人工标注,标注内容包括整体偏好和十种特定错误类型;3) LLM Judge评估:使用多个LLM Judge在零样本和少样本设置下对回复进行评估;4) 结果分析:比较不同LLM的生成结果、LLM Judge的判断结果以及人类标注的偏好信息,分析LLM Judge的性能表现和偏差。

关键创新:论文的关键创新在于构建了REPA数据集,这是一个专门针对俄语的错误类型标注数据集,可以用于评估LLM在俄语环境下的生成质量和判断能力。此外,论文还对LLM Judge在俄语环境下的性能进行了深入分析,揭示了其与人类偏好之间的差距,为改进LLM Judge在俄语环境下的性能提供了指导。

关键设计:REPA数据集包含1000个用户查询和2000个LLM生成的回复。人工标注者对每个回复对进行了偏好标注,涵盖十种特定错误类型(例如,事实错误、逻辑错误、风格错误等)以及整体偏好。LLM Judge的评估采用了零样本和少样本设置,并使用了不同的提示工程方法来提高其性能。研究还分析了LLM Judge的位置和长度偏差,以更好地理解其判断行为。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,俄语LLM Judge的性能与英语存在显著差距,表明当前LLM Judge在俄语的细粒度评估方面存在困难。然而,基于人类和LLM偏好的排名显示出部分一致性,暗示着通过进一步优化,LLM Judge在俄语环境下的性能仍有提升空间。

🎯 应用场景

该研究成果可应用于俄语文本生成模型的评估与改进,提升俄语LLM Judge的准确性和可靠性。同时,REPA数据集可作为基准数据集,促进俄语自然语言处理领域的发展,并为其他低资源语言的LLM评估提供借鉴。

📄 摘要(原文)

Recent advances in large language models (LLMs) have introduced the novel paradigm of using LLMs as judges, where an LLM evaluates and scores the outputs of another LLM, which often correlates highly with human preferences. However, the use of LLM-as-a-judge has been primarily studied in English. In this paper, we evaluate this framework in Russian by introducing the Russian Error tyPes Annotation dataset (REPA), a dataset of 1k user queries and 2k LLM-generated responses. Human annotators labeled each response pair expressing their preferences across ten specific error types, as well as selecting an overall preference. We rank six generative LLMs across the error types using three rating systems based on human preferences. We also evaluate responses using eight LLM judges in zero-shot and few-shot settings. We describe the results of analyzing the judges and position and length biases. Our findings reveal a notable gap between LLM judge performance in Russian and English. However, rankings based on human and LLM preferences show partial alignment, suggesting that while current LLM judges struggle with fine-grained evaluation in Russian, there is potential for improvement.