Evaluating LLMs for Career Guidance: Comparative Analysis of Computing Competency Recommendations Across Ten African Countries

📄 arXiv: 2510.18902v2 📥 PDF

作者: Precious Eze, Stephanie Lunn, Bruk Berhane

分类: cs.CY, cs.AI

发布日期: 2025-10-20 (更新: 2026-01-29)

备注: 42 pages, 5 figures, 5 tables. Submitted to Computers & Education Open


💡 一句话要点

评估LLM在非洲职业指导中的应用:计算能力推荐的跨国比较分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 职业指导 非洲 情境感知 数字殖民主义

📋 核心要点

  1. 现有LLM在为非洲地区提供职业指导时,未能充分考虑当地的具体情况,存在西方中心偏见和情境感知不足的问题。
  2. 本研究通过对六个主流LLM在十个非洲国家计算职业推荐的分析,揭示了技术能力和非技术能力之间的差距。
  3. 实验结果表明,开源模型(如Llama和DeepSeek)在情境感知和技能平衡方面优于专有模型,但Mistral的表现不佳。

📝 摘要(中文)

雇主越来越期望毕业生在工作场所使用大型语言模型(LLM),但鉴于各国国情不同,非洲计算岗位所需的能力仍不明确。本研究考察了六个LLM(ChatGPT 4、DeepSeek、Gemini、Claude 3.5、Llama 3和Mistral AI)如何描述非洲十个国家入门级计算职业的期望。利用计算课程2020框架,并借鉴数字殖民主义理论和Ubuntu哲学,对60个LLM对标准化提示的响应进行内容分析,揭示了对云计算和编程等技术能力的持续覆盖,但在非技术能力(尤其是伦理和负责任的AI使用)方面存在显著差异。模型在识别特定国家因素(包括当地技术生态系统、语言要求和国家政策)方面差异很大,总体平均情境感知度仅为35.4%。开源模型表现出更强的情境感知能力,并在技术和专业技能之间取得了更好的平衡,其中Llama(4.47/5)和DeepSeek(4.25/5)优于专有替代方案ChatGPT-4(3.90/5)和Claude(3.46/5)。然而,Mistral的糟糕情境表现(0.00/4)表明,仅靠开发理念并不能保证情境响应能力。这项针对非洲计算学生的LLM职业指导的首次全面比较,揭示了根深蒂固的基础设施假设和以西方为中心的偏见,这些偏见在技术建议和当地现实之间造成了差距。研究结果挑战了在资源受限环境中AI工具质量的假设,并强调了在教育中采用去殖民化AI方法的必要性,强调情境相关性和混合人机指导模型。

🔬 方法详解

问题定义:论文旨在评估现有大型语言模型(LLM)在为非洲十个国家提供计算领域职业指导时的有效性。现有方法的主要痛点在于,这些LLM通常基于西方视角进行训练,未能充分考虑非洲各国在技术生态、语言文化、政策法规等方面的差异,导致推荐的技能和职业发展路径与当地实际需求不符。这种偏差可能加剧数字殖民主义,阻碍非洲本土技术人才的培养和发展。

核心思路:论文的核心思路是通过对LLM生成的职业指导建议进行内容分析,评估其在技术能力、非技术能力以及情境感知方面的表现。研究借鉴了计算课程2020框架、数字殖民主义理论和Ubuntu哲学,从多个维度分析LLM的推荐是否贴合非洲各国的实际情况。通过比较不同LLM的表现,特别是开源模型和专有模型的差异,揭示LLM在职业指导应用中存在的偏见和局限性。

技术框架:研究的技术框架主要包括以下几个阶段:1) 选取六个主流LLM(ChatGPT 4, DeepSeek, Gemini, Claude 3.5, Llama 3, Mistral AI);2) 针对非洲十个国家,设计标准化的提示语,要求LLM提供入门级计算职业的期望;3) 对LLM的回复进行内容分析,评估其在技术能力(如云计算、编程)、非技术能力(如伦理、负责任的AI使用)以及情境感知(如当地技术生态、语言要求、国家政策)方面的表现;4) 使用计算课程2020框架作为评估标准,并结合数字殖民主义理论和Ubuntu哲学进行深入分析。

关键创新:本研究最重要的技术创新点在于,首次对LLM在非洲职业指导领域的应用进行了全面的跨国比较分析。它不仅评估了LLM的技术能力推荐,还关注了非技术能力和情境感知,揭示了LLM在跨文化应用中存在的偏见和局限性。此外,研究还比较了开源模型和专有模型的表现,为未来开发更具情境适应性的AI职业指导工具提供了参考。

关键设计:研究的关键设计包括:1) 标准化的提示语设计,确保不同LLM接收到相同的信息输入;2) 内容分析的维度选择,涵盖技术能力、非技术能力和情境感知,全面评估LLM的表现;3) 评估标准的制定,采用计算课程2020框架,并结合数字殖民主义理论和Ubuntu哲学,确保评估的客观性和公正性;4) 样本国家的选择,覆盖非洲不同地区,具有一定的代表性。

📊 实验亮点

实验结果显示,开源模型Llama (4.47/5) 和 DeepSeek (4.25/5) 在情境感知和技能平衡方面优于专有模型 ChatGPT-4 (3.90/5) 和 Claude (3.46/5)。然而,Mistral 的情境表现为 0.00/4,表明仅靠开源理念并不能保证情境响应能力。总体而言,LLM 的平均情境感知度仅为 35.4%,表明其在理解和适应非洲各国具体情况方面存在显著不足。

🎯 应用场景

该研究成果可应用于改进面向非洲学生的AI职业指导工具,使其更贴合当地实际情况,减少西方中心偏见。同时,研究结果也为教育工作者和政策制定者提供了参考,有助于制定更有效的技术人才培养策略,促进非洲数字经济的发展。未来,可以进一步探索混合人机指导模式,结合LLM的知识和人类专家的经验,提供更个性化和情境化的职业指导。

📄 摘要(原文)

Employers increasingly expect graduates to utilize large language models (LLMs) in the workplace, yet the competencies needed for computing roles across Africa remain unclear given varying national contexts. This study examined how six LLMs, namely ChatGPT 4, DeepSeek, Gemini, Claude 3.5, Llama 3, and Mistral AI, describe entry-level computing career expectations across ten African countries. Using the Computing Curricula 2020 framework and drawing on Digital Colonialism Theory and Ubuntu Philosophy, content analysis of 60 LLM responses to standardized prompts reveals consistent coverage of technical competencies such as cloud computing and programming, but notable differences in non-technical competencies, particularly ethics and responsible AI use. Models vary considerably in recognizing country-specific factors, including local technology ecosystems, language requirements, and national policies averaging only 35.4% contextual awareness overall. Open-source models demonstrated stronger contextual awareness and better balance between technical and professional skills, with Llama (4.47/5) and DeepSeek (4.25/5) outperforming proprietary alternatives ChatGPT-4 (3.90/5) and Claude (3.46/5). However, Mistral's poor contextual performance (0.00/4) despite being open-source indicates that development philosophy alone does not guarantee contextual responsiveness. This first comprehensive comparison of LLM career guidance for African computing students uncovers entrenched infrastructure assumptions and Western-centric biases that create gaps between technical recommendations and local realities. The findings challenge assumptions about AI tool quality in resource-constrained settings and underscore the need for decolonial approaches to AI in education, emphasizing contextual relevance and hybrid human-AI guidance models.