IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian

📄 arXiv: 2507.22159v2 📥 PDF

作者: Vanessa Rebecca Wiyono, David Anugraha, Ayu Purwarianti, Genta Indra Winata

分类: cs.CL, cs.AI

发布日期: 2025-07-29 (更新: 2025-11-11)

备注: Accepted by IJCNLP-AACL 2025


💡 一句话要点

IndoPref:首个印尼语多领域成对偏好数据集,用于评估LLM生成文本的自然性和质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 印尼语 大型语言模型 偏好学习 数据集 自然语言处理

📋 核心要点

  1. 现有印尼语LLM训练数据不足,且多为翻译,缺乏文化和语言真实性,限制了模型性能。
  2. IndoPref数据集通过人工编写印尼语偏好数据,旨在提升LLM生成文本的自然性和质量。
  3. 该数据集包含522个提示和4099个人工标注的成对偏好,覆盖10个领域,可用于评估LLM的优劣。

📝 摘要(中文)

超过2亿人使用印尼语,但该语言在基于偏好的大型语言模型(LLM)研究中仍然严重不足。现有的大多数多语言数据集都源自英语翻译,导致内容缺乏文化和语言的真实性。为了解决这个问题,我们推出了IndoPref,这是第一个完全由人工编写的多领域印尼语偏好数据集,旨在评估LLM生成文本的自然性和质量。该数据集包含522个提示,并从五个指令调整的LLM的比较中产生了4,099个人工标注的成对偏好。所有注释均以印尼语原生编写,并具有很强的人工标注一致性,通过Krippendorff's alpha测量。我们的基准测试涵盖10个不同的类别,使从业者能够识别LLM的细粒度优势和劣势。

🔬 方法详解

问题定义:现有印尼语大型语言模型(LLM)的训练和评估面临数据匮乏的问题,特别是高质量的、反映印尼语文化和语言特点的偏好数据。现有方法依赖于英语翻译,导致生成的内容在自然性和文化适应性上存在不足。因此,需要一个专门为印尼语设计的、人工标注的偏好数据集,以更好地评估和提升LLM的性能。

核心思路:IndoPref的核心思路是构建一个高质量的印尼语成对偏好数据集,通过人工标注的方式,直接比较不同LLM生成的文本,从而获得关于文本质量和自然度的偏好信息。这种方法避免了翻译带来的信息损失和文化偏差,能够更准确地反映印尼语用户的真实偏好。

技术框架:IndoPref数据集的构建流程主要包括以下几个阶段:1) 收集多样化的提示(prompts),覆盖10个不同的领域;2) 使用多个指令调整的LLM生成文本;3) 招募印尼语母语者进行人工标注,对不同LLM生成的文本进行成对比较,并标注偏好;4) 计算标注者之间的一致性(Krippendorff's alpha),确保数据的质量。

关键创新:IndoPref的主要创新在于它是第一个完全由人工编写的、多领域的印尼语偏好数据集。与以往依赖翻译的方法不同,IndoPref直接使用印尼语进行标注,从而更好地捕捉印尼语的语言特点和文化背景。此外,该数据集涵盖了10个不同的领域,能够更全面地评估LLM在不同任务上的表现。

关键设计:在数据标注过程中,研究人员采用了成对比较的方法,要求标注者在两个LLM生成的文本中选择更符合印尼语习惯、更自然流畅的文本。为了保证数据质量,研究人员计算了标注者之间的一致性,并对不一致的标注进行了复核。此外,数据集的构建过程中,提示的选择也经过精心设计,以确保覆盖不同的领域和任务。

🖼️ 关键图片

fig_0

📊 实验亮点

IndoPref数据集包含522个提示和4099个人工标注的成对偏好,覆盖10个领域。标注者之间的一致性较高,Krippendorff's alpha值表明数据质量可靠。该数据集为印尼语LLM的研究和开发提供了一个重要的基准。

🎯 应用场景

IndoPref数据集可用于训练和评估印尼语LLM,提升模型生成文本的质量和自然度。该数据集能够帮助研究人员更好地了解LLM在印尼语环境下的优势和劣势,从而开发出更符合印尼语用户需求的AI应用,例如智能客服、内容创作和机器翻译等。

📄 摘要(原文)

Over 200 million people speak Indonesian, yet the language remains significantly underrepresented in preference-based research for large language models (LLMs). Most existing multilingual datasets are derived from English translations, often resulting in content that lacks cultural and linguistic authenticity. To address this gap, we introduce IndoPref, the first fully human-authored and multi-domain Indonesian preference dataset designed to evaluate the naturalness and quality of LLM-generated text. The dataset contains 522 prompts and yields 4,099 human-annotated pairwise preferences from comparisons across five instruction-tuned LLMs. All annotations are natively written in Indonesian with strong inter-annotator agreement, measured by Krippendorff's alpha. Our benchmark spans 10 diverse categories, enabling practitioners to identify LLMs' fine-grained strengths and weaknesses.