Developing and Validating the Arabic Version of the Attitudes Toward Large Language Models Scale
作者: Basad Barajeeh, Ala Yankouskaya, Sameha AlShakhsi, Chun Sing Maxwell Ho, Guandong Xu, Raian Ali
分类: cs.HC, cs.AI
发布日期: 2025-10-14
备注: 28 Pages
💡 一句话要点
开发并验证阿拉伯语版大语言模型态度量表,填补非西方文化背景下LLM认知研究空白。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 态度量表 阿拉伯语 心理测量学 信效度 文化适应性 人工智能 非西方文化
📋 核心要点
- 现有AI态度评估工具缺乏针对LLM的特异性,且在阿拉伯语及文化背景下的适用性未经充分验证。
- 本研究翻译并验证了AT-GLLM和AT-PLLM量表的阿拉伯语版本,用于评估阿拉伯语使用者对LLM的态度。
- 实验结果表明,该阿拉伯语量表具有良好的信效度,可用于阿拉伯人群体中LLM态度研究。
📝 摘要(中文)
随着大型语言模型(LLM)的全球应用日益广泛,理解公众对这些系统的态度需要适应本地环境和语言的工具。在阿拉伯世界,LLM的应用迅速增长,全球主导平台和区域平台(如Fanar和Jais)都提供了针对阿拉伯语的解决方案。这突显了需要具有文化和语言相关性的量表,以准确衡量该地区对LLM的态度。评估对人工智能(AI)态度的工具可以为衡量特定于LLM的态度提供基础。本文翻译并验证了两个量表AT-GLLM和AT-PLLM,使用了一个包含249名阿拉伯语成年人的样本。结果表明,翻译成阿拉伯语的量表是一个可靠且有效的工具,可用于阿拉伯人群和语言。心理测量分析证实了一个双因素结构,跨性别的强测量不变性和良好的内部可靠性。这些量表还表现出很强的收敛效度和区分效度。我们的量表将支持非西方背景下的研究,这是一项非常需要的努力,以帮助描绘LLM认知的全球图景,并将促进阿拉伯地区的本地化研究和政策制定。
🔬 方法详解
问题定义:本研究旨在解决缺乏针对阿拉伯语使用者的大型语言模型(LLM)态度评估工具的问题。现有的人工智能(AI)态度量表虽然可以作为基础,但缺乏针对LLM的特异性,并且未经阿拉伯语文化背景下的验证。这限制了对阿拉伯世界LLM认知和接受程度的准确评估,阻碍了相关研究和政策制定。
核心思路:核心思路是将已有的英文版LLM态度量表(AT-GLLM和AT-PLLM)翻译成阿拉伯语,并通过心理测量学方法验证其信度和效度。通过确保量表在阿拉伯语环境下的可靠性和有效性,为研究人员提供一个标准化的工具,以准确测量阿拉伯语使用者对LLM的态度。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 量表的翻译:将英文版AT-GLLM和AT-PLLM量表翻译成阿拉伯语。2) 数据收集:招募249名阿拉伯语成年人作为样本,使用阿拉伯语版量表进行调查。3) 心理测量学分析:对收集到的数据进行信度分析(如Cronbach's alpha)、效度分析(如收敛效度和区分效度)和测量不变性分析,以评估量表的可靠性和有效性。4) 因素分析:验证量表的双因素结构(AI恐惧和AI接受)。
关键创新:该研究的关键创新在于首次将LLM态度量表引入阿拉伯语环境,并对其进行了全面的心理测量学验证。这填补了非西方文化背景下LLM认知研究的空白,为未来的相关研究提供了重要的工具和参考。
关键设计:研究的关键设计包括:1) 严格的翻译流程,确保量表在语言和文化上的准确性。2) 足够大的样本量,以保证统计分析的可靠性。3) 多种心理测量学方法的综合应用,全面评估量表的信度和效度。4) 测量不变性分析,验证量表在不同性别群体中的适用性。
📊 实验亮点
研究结果表明,阿拉伯语版AT-GLLM和AT-PLLM量表具有良好的内部一致性信度(Cronbach's alpha > 0.7),验证了其双因素结构,并证明了其跨性别的测量不变性。此外,该量表还表现出良好的收敛效度和区分效度,表明其能够准确测量阿拉伯语使用者对LLM的态度。
🎯 应用场景
该研究成果可广泛应用于阿拉伯地区的LLM相关研究、政策制定和产品设计。例如,可以用于评估公众对不同LLM应用的接受程度,指导LLM产品的本地化策略,以及制定促进LLM健康发展的政策。此外,该量表还可以用于跨文化比较研究,了解不同文化背景下人们对LLM态度的差异。
📄 摘要(原文)
As the use of large language models (LLMs) becomes increasingly global, understanding public attitudes toward these systems requires tools that are adapted to local contexts and languages. In the Arab world, LLM adoption has grown rapidly with both globally dominant platforms and regional ones like Fanar and Jais offering Arabic-specific solutions. This highlights the need for culturally and linguistically relevant scales to accurately measure attitudes toward LLMs in the region. Tools assessing attitudes toward artificial intelligence (AI) can provide a base for measuring attitudes specific to LLMs. The 5-item Attitudes Toward Artificial Intelligence (ATAI) scale, which measures two dimensions, the AI Fear and the AI Acceptance, has been recently adopted and adapted to develop new instruments in English using a sample from the UK: the Attitudes Toward General LLMs (AT-GLLM) and Attitudes Toward Primary LLM (AT-PLLM) scales. In this paper, we translate the two scales, AT-GLLM and AT-PLLM, and validate them using a sample of 249 Arabic-speaking adults. The results show that the scale, translated into Arabic, is a reliable and valid tool that can be used for the Arab population and language. Psychometric analyses confirmed a two-factor structure, strong measurement invariance across genders, and good internal reliability. The scales also demonstrated strong convergent and discriminant validity. Our scales will support research in a non-Western context, a much-needed effort to help draw a global picture of LLM perceptions, and will also facilitate localized research and policy-making in the Arab region.