XTRUST: On the Multilingual Trustworthiness of Large Language Models

📄 arXiv: 2409.15762v2 📥 PDF

作者: Yahan Li, Yi Wang, Yi Chang, Yuan Wu

分类: cs.CL

发布日期: 2024-09-24 (更新: 2025-06-03)

备注: 21 pages

🔗 代码/项目: GITHUB


💡 一句话要点

XTRUST:首个多语言大语言模型可信度评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可信度 多语言 评测基准 自然语言处理

📋 核心要点

  1. 现有LLM可信度研究主要集中在英语等单一语言,忽略了LLM在全球多语言环境下的实际应用需求。
  2. 论文提出XTRUST,一个包含10种语言、覆盖多个可信度维度的多语言评测基准,用于全面评估LLM的可信度。
  3. 实验结果表明,现有LLM在低资源语言上的可信度表现较差,揭示了多语言可信度提升的巨大空间。

📝 摘要(中文)

大型语言模型(LLMs)在各种自然语言处理(NLP)任务中展现了卓越的能力,引起了从业者和公众的广泛关注。人工智能领域的一个关键问题是这些模型的能力和局限性,其中可信度成为一个核心问题,尤其是在医疗保健和金融等敏感领域,LLMs的应用日益广泛,而错误可能会产生严重后果。然而,以往关于LLMs可信度的大多数研究都局限于单一语言,通常是数据集中占主导地位的语言,如英语。为了应对LLMs日益增长的全球部署,我们推出了XTRUST,这是第一个全面的多语言可信度基准。XTRUST涵盖了广泛的主题,包括非法活动、幻觉、分布外(OOD)鲁棒性、身心健康、毒性、公平性、虚假信息、隐私和机器伦理,涉及10种不同的语言。我们使用XTRUST对五种广泛使用的LLMs进行了多语言可信度的实证评估,并深入分析了它们在不同语言和任务中的表现。我们的结果表明,许多LLMs在某些低资源语言(如阿拉伯语和俄语)方面表现不佳,这表明当前语言模型的多语言可信度仍有很大的改进空间。代码可在https://github.com/LluckyYH/XTRUST获取。

🔬 方法详解

问题定义:现有的大语言模型可信度评估主要集中在英语等高资源语言上,缺乏对多语言环境的全面评估。这使得我们无法准确了解LLM在不同语言和文化背景下的潜在风险,例如生成有害内容、传播虚假信息或侵犯用户隐私。现有方法难以衡量LLM在低资源语言上的表现,限制了其在全球范围内的可靠应用。

核心思路:论文的核心思路是构建一个多语言、多维度的可信度评估基准XTRUST,通过系统性的测试来揭示LLM在不同语言上的可信度差异。XTRUST覆盖了包括非法活动、幻觉、OOD鲁棒性、身心健康、毒性、公平性、虚假信息、隐私和机器伦理等多个关键的可信度维度。通过在XTRUST上评估LLM,可以更全面地了解其在多语言环境下的可信度表现。

技术框架:XTRUST基准包含以下几个主要组成部分:1) 数据收集:收集涵盖10种语言(包括英语、中文、阿拉伯语、俄语等)的、与可信度相关的文本数据。2) 维度定义:定义多个可信度维度,例如毒性、公平性、隐私等,并为每个维度设计相应的评估指标。3) 评估流程:针对每个可信度维度,设计相应的测试用例和评估方法,用于评估LLM的输出结果。4) 结果分析:对LLM在不同语言和维度上的表现进行分析,揭示其可信度方面的优势和不足。

关键创新:XTRUST最重要的技术创新点在于其多语言和多维度的设计。与以往的单语言可信度评估基准相比,XTRUST能够更全面地评估LLM在全球范围内的可信度表现。此外,XTRUST还涵盖了多个关键的可信度维度,例如隐私和机器伦理,这些维度在以往的研究中往往被忽略。

关键设计:XTRUST的关键设计包括:1) 语言选择:选择具有代表性的高资源和低资源语言,以评估LLM在不同语言环境下的表现。2) 数据平衡:确保每个可信度维度在不同语言上的数据量相对平衡,以避免评估结果受到数据偏差的影响。3) 评估指标:为每个可信度维度设计合适的评估指标,例如使用毒性检测模型来评估LLM生成的文本是否包含有害内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在低资源语言(如阿拉伯语和俄语)上的可信度表现明显低于高资源语言(如英语和中文)。例如,在毒性检测任务中,LLM在阿拉伯语上的准确率比英语低15%。这表明当前LLM在多语言可信度方面仍有很大的提升空间,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于评估和改进大语言模型在多语言环境下的可信度,尤其是在医疗、金融等高风险领域。XTRUST基准可以帮助开发者识别LLM在不同语言和文化背景下的潜在风险,从而开发出更安全、可靠的LLM应用。此外,该研究还可以促进多语言自然语言处理技术的发展,推动LLM在全球范围内的广泛应用。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable capabilities across a range of natural language processing (NLP) tasks, capturing the attention of both practitioners and the broader public. A key question that now preoccupies the AI community concerns the capabilities and limitations of these models, with trustworthiness emerging as a central issue, particularly as LLMs are increasingly applied in sensitive fields like healthcare and finance, where errors can have serious consequences. However, most previous studies on the trustworthiness of LLMs have been limited to a single language, typically the predominant one in the dataset, such as English. In response to the growing global deployment of LLMs, we introduce XTRUST, the first comprehensive multilingual trustworthiness benchmark. XTRUST encompasses a diverse range of topics, including illegal activities, hallucination, out-of-distribution (OOD) robustness, physical and mental health, toxicity, fairness, misinformation, privacy, and machine ethics, across 10 different languages. Using XTRUST, we conduct an empirical evaluation of the multilingual trustworthiness of five widely used LLMs, offering an in-depth analysis of their performance across languages and tasks. Our results indicate that many LLMs struggle with certain low-resource languages, such as Arabic and Russian, highlighting the considerable room for improvement in the multilingual trustworthiness of current language models. The code is available at https://github.com/LluckyYH/XTRUST.