The AI Skills Shift: Mapping Skill Obsolescence, Emergence, and Transition Pathways in the LLM Era
作者: Rudra Jadhav, Janhavi Danve
分类: cs.CL, cs.AI, cs.CY
发布日期: 2026-04-08
备注: 11 pages, 12 figures, 2 tables, 17 references. Code and data available at
💡 一句话要点
提出SAFI评估LLM对职业技能的影响,揭示技能自动化可行性与转型路径。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 职业技能 自动化可行性 劳动力市场 AI影响评估
📋 核心要点
- 现有方法缺乏对LLM时代职业技能自动化可行性的量化评估,难以指导政策制定和劳动力转型。
- 提出技能自动化可行性指数(SAFI)和AI影响矩阵,评估LLM在不同技能上的表现,并分析其对职业的影响。
- 实验表明,数学和编程技能自动化可行性高,而积极倾听和阅读理解较低,并揭示了“能力-需求倒置”现象。
📝 摘要(中文)
本文提出了技能自动化可行性指数(SAFI),通过对LLaMA 3.3 70B、Mistral Large、Qwen 2.5 72B和Gemini 2.5 Flash四个前沿LLM在涵盖美国劳工部O*NET分类体系中所有35项技能的263个基于文本的任务上进行基准测试(总共1052次模型调用,0%失败率),评估LLM对全球劳动力市场的影响。结合Anthropic经济指数的实际AI采用数据(756个职业,17998个任务),提出了AI影响矩阵,将技能定位在四个象限:高取代风险、需要技能提升、AI增强和较低取代风险。主要发现包括:数学和编程的自动化可行性得分最高,而积极倾听和阅读理解得分最低;在AI暴露的工作中,需求最高的技能是LLM表现最差的技能,存在“能力-需求倒置”;78.7%的AI交互是增强而非自动化;所有四个模型都收敛到相似的技能概况,表明基于文本的自动化可行性可能更依赖于技能而非模型。SAFI衡量LLM在技能的基于文本的表示上的表现,而不是完整的职业执行。所有数据、代码和模型响应均已开源。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)快速发展对劳动力市场中职业技能的影响评估问题。现有方法缺乏对不同职业技能被自动化替代或增强的风险进行量化分析的工具,无法为政策制定者和劳动者提供有效的决策依据。现有研究难以区分技能被自动化替代和被AI增强的不同情况,也缺乏对技能需求变化的预测能力。
核心思路:论文的核心思路是构建一个可量化的技能自动化可行性指数(SAFI),通过评估LLM在执行与特定技能相关的文本任务时的表现,来预测该技能被自动化替代的可能性。同时,结合实际的AI应用数据,分析技能在劳动力市场中的需求变化,从而更全面地评估AI对职业技能的影响。
技术框架:论文的技术框架主要包括以下几个阶段:1) 技能选择与任务构建:基于美国劳工部ONET分类体系,选择35项核心技能,并为每项技能构建多个基于文本的任务。2) LLM基准测试:使用四个前沿LLM(LLaMA 3.3 70B、Mistral Large、Qwen 2.5 72B和Gemini 2.5 Flash)执行这些任务,记录模型的表现。3) SAFI计算:根据LLM在不同技能任务上的表现,计算每项技能的SAFI得分,用于衡量其自动化可行性。4) AI影响矩阵构建*:结合Anthropic经济指数的实际AI应用数据,将技能定位在AI影响矩阵的四个象限(高取代风险、需要技能提升、AI增强和较低取代风险)。
关键创新:论文最重要的技术创新点在于提出了SAFI指数和AI影响矩阵,将LLM的技能执行能力与实际的AI应用数据相结合,从而更全面、更准确地评估AI对职业技能的影响。与现有方法相比,该方法不仅考虑了技能被自动化替代的风险,还考虑了技能被AI增强的可能性,并分析了技能需求的变化趋势。
关键设计:关键设计包括:1) 任务构建:精心设计与每项技能相关的文本任务,以确保能够准确评估LLM在该技能上的表现。2) 模型选择:选择具有代表性的前沿LLM,以确保评估结果的可靠性。3) SAFI计算方法:设计合理的SAFI计算方法,以确保能够准确反映技能的自动化可行性。4) AI影响矩阵的象限划分:根据技能的SAFI得分和实际AI应用数据,将技能合理地划分到AI影响矩阵的四个象限中。
🖼️ 关键图片
📊 实验亮点
实验结果表明,数学(SAFI: 73.2)和编程(71.8)的自动化可行性得分最高,而积极倾听(42.2)和阅读理解(45.5)得分最低。研究还发现,在AI暴露的工作中,需求最高的技能是LLM表现最差的技能,存在“能力-需求倒置”。此外,78.7%的AI交互是增强而非自动化,表明AI在很大程度上是辅助人类工作,而非完全取代。
🎯 应用场景
该研究成果可应用于劳动力市场分析、职业技能培训、教育政策制定等领域。政府和企业可以利用SAFI指数和AI影响矩阵,预测未来劳动力市场的技能需求变化,制定相应的培训计划,帮助劳动者提升技能,适应AI时代的需求。教育机构可以根据研究结果调整课程设置,培养学生适应未来工作所需的技能。
📄 摘要(原文)
As Large Language Models reshape the global labor market, policymakers and workers need empirical data on which occupational skills may be most susceptible to automation. We present the Skill Automation Feasibility Index (SAFI), benchmarking four frontier LLMs -- LLaMA 3.3 70B, Mistral Large, Qwen 2.5 72B, and Gemini 2.5 Flash -- across 263 text-based tasks spanning all 35 skills in the U.S. Department of Labor's O*NET taxonomy (1,052 total model calls, 0% failure rate). Cross-referencing with real-world AI adoption data from the Anthropic Economic Index (756 occupations, 17,998 tasks), we propose an AI Impact Matrix -- an interpretive framework that positions skills along four quadrants: High Displacement Risk, Upskilling Required, AI-Augmented, and Lower Displacement Risk. Key findings: (1) Mathematics (SAFI: 73.2) and Programming (71.8) receive the highest automation feasibility scores; Active Listening (42.2) and Reading Comprehension (45.5) receive the lowest; (2) a "capability-demand inversion" where skills most demanded in AI-exposed jobs are those LLMs perform least well at in our benchmark; (3) 78.7% of observed AI interactions are augmentation, not automation; (4) all four models converge to similar skill profiles (3.6-point spread), suggesting that text-based automation feasibility may be more skill-dependent than model-dependent. SAFI measures LLM performance on text-based representations of skills, not full occupational execution. All data, code, and model responses are open-sourced.