Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following
作者: Yun He, Di Jin, Chaoqi Wang, Chloe Bi, Karishma Mandyam, Hejia Zhang, Chen Zhu, Ning Li, Tengyu Xu, Hongjiang Lv, Shruti Bhosale, Chenguang Zhu, Karthik Abinav Sankararaman, Eryk Helenowski, Melanie Kambadur, Aditya Tayade, Hao Ma, Han Fang, Sinong Wang
分类: cs.CL
发布日期: 2024-10-21 (更新: 2024-11-13)
💡 一句话要点
提出Multi-IF基准,评估LLM在多轮和多语言指令跟随方面的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 指令跟随 多轮对话 多语言 基准测试
📋 核心要点
- 现有LLM指令跟随评估主要集中于单轮单语,无法充分反映真实场景中多轮多语言交互的复杂性。
- 提出Multi-IF基准,通过构建多轮多语言对话数据集,更全面地评估LLM的指令跟随能力。
- 实验表明,现有LLM在Multi-IF上表现显著下降,尤其是在非拉丁语系中,揭示了模型多语言能力的不足。
📝 摘要(中文)
大型语言模型(LLMs)在各种任务中展现了令人印象深刻的能力,包括指令跟随,这对于使模型输出与用户期望对齐至关重要。然而,评估LLMs遵循指令的能力仍然具有挑战性,因为人类语言的复杂性和主观性。当前的基准主要集中在单轮、单语指令上,这不足以反映需要处理多轮和多语言交互的实际应用的复杂性。为了解决这个差距,我们引入了Multi-IF,这是一个新的基准,旨在评估LLMs在遵循多轮和多语言指令方面的能力。Multi-IF利用LLM和人工标注员相结合的混合框架,通过结合多轮序列并将英语提示翻译成另外7种语言来扩展IFEval,从而产生一个包含4,501个多语言对话的数据集,每个对话有三个轮次。我们对14个最先进的LLMs在Multi-IF上的评估表明,它提出了比现有基准更具挑战性的任务。所有测试的模型都显示,随着每个额外轮次的增加,正确执行指令的失败率更高。例如,o1-preview在所有语言上的平均准确率从第一轮的0.877下降到第三轮的0.707。此外,使用非拉丁文字的语言(印地语、俄语和中文)通常表现出更高的错误率,这表明模型的多语言能力可能存在局限性。我们发布Multi-IF提示和评估代码库,以鼓励在该关键领域进行进一步研究。
🔬 方法详解
问题定义:现有的大型语言模型评估基准主要集中在单轮和单语的指令跟随任务上,忽略了真实世界应用中常见的复杂交互场景,例如多轮对话和多语言环境。这导致对LLM的实际指令理解和执行能力的评估不充分,无法准确反映其在实际应用中的性能。现有方法难以有效评估LLM在复杂、多变的真实场景下的指令跟随能力,存在泛化性不足的问题。
核心思路:Multi-IF的核心思路是通过构建一个包含多轮对话和多语言指令的数据集,来更全面地评估LLM的指令跟随能力。通过引入多轮交互,可以考察LLM在对话上下文理解和长期依赖关系处理方面的能力。通过引入多语言环境,可以考察LLM的跨语言理解和生成能力,以及其在不同语言文化背景下的适应性。
技术框架:Multi-IF的构建采用了一种混合框架,结合了LLM和人工标注员的优势。首先,利用LLM生成初始的多轮对话草稿,然后由人工标注员进行审核、修改和润色,以确保数据集的质量和多样性。数据集包含4501个多语言对话,每个对话包含三个轮次。英语提示被翻译成7种其他语言,包括印地语、俄语和中文等。评估过程使用自动评估指标和人工评估相结合的方式,以更全面地评估LLM的性能。
关键创新:Multi-IF的关键创新在于其多轮和多语言的特性,这使得它能够更全面地评估LLM的指令跟随能力。与现有的单轮单语基准相比,Multi-IF更接近真实世界的应用场景,能够更准确地反映LLM的实际性能。此外,Multi-IF的构建过程采用了LLM和人工标注员相结合的混合框架,这保证了数据集的质量和多样性。
关键设计:Multi-IF数据集包含8种语言,其中英语为原始语言,其余7种语言为翻译版本。每个对话包含三个轮次,每个轮次都包含用户指令和模型回复。数据集的设计考虑了指令的多样性和复杂性,包括各种类型的任务,例如问答、摘要、翻译和代码生成等。评估指标包括准确率、召回率和F1值等,用于衡量模型回复的质量和与指令的匹配程度。此外,还采用了人工评估,以更主观地评估模型回复的流畅性、相关性和创造性。
🖼️ 关键图片
📊 实验亮点
在Multi-IF基准上,14个最先进的LLM的性能均显著下降,尤其是在多轮对话和非拉丁语系中。例如,o1-preview模型在第一轮的平均准确率为0.877,但在第三轮下降至0.707。非拉丁语系(如印地语、俄语和中文)的错误率普遍高于拉丁语系,表明现有LLM在多语言能力方面存在局限性。
🎯 应用场景
Multi-IF基准的提出,为开发更智能、更可靠的对话系统奠定了基础。该研究成果可应用于智能客服、虚拟助手、跨语言交流等领域,提升人机交互的自然性和效率。未来,基于Multi-IF的研究可以推动LLM在多语言环境下的应用,促进全球范围内的信息交流和知识共享。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated impressive capabilities in various tasks, including instruction following, which is crucial for aligning model outputs with user expectations. However, evaluating LLMs' ability to follow instructions remains challenging due to the complexity and subjectivity of human language. Current benchmarks primarily focus on single-turn, monolingual instructions, which do not adequately reflect the complexities of real-world applications that require handling multi-turn and multilingual interactions. To address this gap, we introduce Multi-IF, a new benchmark designed to assess LLMs' proficiency in following multi-turn and multilingual instructions. Multi-IF, which utilizes a hybrid framework combining LLM and human annotators, expands upon the IFEval by incorporating multi-turn sequences and translating the English prompts into another 7 languages, resulting in a dataset of 4,501 multilingual conversations, where each has three turns. Our evaluation of 14 state-of-the-art LLMs on Multi-IF reveals that it presents a significantly more challenging task than existing benchmarks. All the models tested showed a higher rate of failure in executing instructions correctly with each additional turn. For example, o1-preview drops from 0.877 at the first turn to 0.707 at the third turn in terms of average accuracy over all languages. Moreover, languages with non-Latin scripts (Hindi, Russian, and Chinese) generally exhibit higher error rates, suggesting potential limitations in the models' multilingual capabilities. We release Multi-IF prompts and the evaluation code base to encourage further research in this critical area.