How Does Quantization Affect Multilingual LLMs?

📄 arXiv: 2407.03211v2 📥 PDF

作者: Kelly Marchisio, Saurabh Dash, Hongyu Chen, Dennis Aumiller, Ahmet Üstün, Sara Hooker, Sebastian Ruder

分类: cs.CL, cs.LG

发布日期: 2024-07-03 (更新: 2024-10-12)

备注: Findings of EMNLP 2024 Camera-Ready


💡 一句话要点

揭示量化对多语言LLM的影响:非拉丁语系性能显著下降,人工评估更敏感

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 量化 模型压缩 非拉丁语系 人工评估

📋 核心要点

  1. 现有研究缺乏对量化多语言LLM的系统性评估,尤其是在非拉丁语系上的性能影响。
  2. 该研究通过自动基准、LLM-as-a-Judge和人工评估,全面分析量化对多语言LLM的影响。
  3. 实验表明,量化对不同语言的影响存在差异,非拉丁语系和复杂任务受影响更大,人工评估能更准确地反映性能下降。

📝 摘要(中文)

量化技术被广泛用于提高大型语言模型的推理速度和部署效率。虽然大量工作研究了量化对英语LLM的影响,但尚未有研究评估其在多种语言上的表现。本文对量化后的多语言LLM进行了全面分析,重点关注不同语言和规模下的性能。我们使用自动基准、LLM-as-a-Judge和人工评估,发现:(1)量化的有害影响在人工评估中显而易见,而自动指标严重低估了这种影响:日语在自动任务中平均下降1.7%,但在人工评估中下降了16.0%;(2)不同语言受量化的影响不同,非拉丁语系受到的影响最严重;(3)数学推理等具有挑战性的任务性能下降最快。由于提供低计算模型的能力对于NLP技术在全球范围内的广泛应用至关重要,我们的结果促使人们将多语言性能作为高效模型的一个关键评估标准。

🔬 方法详解

问题定义:本文旨在研究量化技术对多语言大型语言模型(LLM)性能的影响。现有研究主要集中在英语LLM上,忽略了量化对其他语言,特别是对非拉丁语系语言的影响。此外,自动评估指标可能无法准确反映量化对模型在实际应用中的性能影响,尤其是在生成质量和流畅度方面。

核心思路:核心思路是通过多语言基准测试、LLM-as-a-Judge和人工评估相结合的方式,全面评估量化对不同语言LLM性能的影响。重点关注非拉丁语系语言,并比较自动评估和人工评估结果的差异,从而更准确地了解量化对多语言LLM的实际影响。

技术框架:该研究的技术框架主要包括以下几个部分:1) 选择多种语言的LLM进行量化,并使用不同的量化方法;2) 使用自动基准测试评估量化前后模型在不同语言上的性能,包括翻译、问答等任务;3) 使用LLM-as-a-Judge评估生成文本的质量和流畅度;4) 进行人工评估,邀请母语人士对量化前后模型生成的文本进行评分,从而更准确地评估量化对模型性能的影响。

关键创新:该研究的关键创新在于:1) 首次系统性地评估了量化对多语言LLM的影响,填补了该领域的研究空白;2) 强调了非拉丁语系语言在量化过程中受到的 disproportionate 影响;3) 提出了结合自动评估、LLM-as-a-Judge和人工评估的综合评估方法,更准确地评估量化对模型性能的影响。

关键设计:在实验设计方面,选择了多种具有代表性的语言,包括拉丁语系、非拉丁语系等。使用了不同的量化方法,包括静态量化、动态量化等。在人工评估方面,设计了 realistic 的 prompts,并邀请了母语人士进行评分,从而保证了评估结果的可靠性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,量化对不同语言的LLM性能影响不同,非拉丁语系受到的影响更大。自动评估指标低估了量化的负面影响,人工评估能更准确地反映性能下降。例如,日语在自动任务中平均下降1.7%,但在人工评估中下降了16.0%。此外,数学推理等复杂任务的性能下降最为明显。

🎯 应用场景

该研究成果可应用于多语言LLM的部署和优化,尤其是在资源受限的环境下。通过了解量化对不同语言的影响,可以针对性地选择合适的量化方法,从而在保证模型性能的同时,降低计算成本和存储空间。这对于促进NLP技术在全球范围内的广泛应用具有重要意义。

📄 摘要(原文)

Quantization techniques are widely used to improve inference speed and deployment of large language models. While a wide body of work examines the impact of quantization on LLMs in English, none have evaluated across languages. We conduct a thorough analysis of quantized multilingual LLMs, focusing on performance across languages and at varying scales. We use automatic benchmarks, LLM-as-a-Judge, and human evaluation, finding that (1) harmful effects of quantization are apparent in human evaluation, which automatic metrics severely underestimate: a 1.7% average drop in Japanese across automatic tasks corresponds to a 16.0% drop reported by human evaluators on realistic prompts; (2) languages are disparately affected by quantization, with non-Latin script languages impacted worst; and (3) challenging tasks like mathematical reasoning degrade fastest. As the ability to serve low-compute models is critical for wide global adoption of NLP technologies, our results urge consideration of multilingual performance as a key evaluation criterion for efficient models.