Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs

📄 arXiv: 2407.19204v3 📥 PDF

作者: Emilio Colombo, Fabio Mercorio, Mario Mezzanzanica, Antonio Serino

分类: cs.CY, cs.AI

发布日期: 2024-07-27 (更新: 2026-01-07)

备注: 10 pages. Accepted for publication at IJCAI 2025. Final version available at https://doi.org/10.24963/ijcai.2025/1066

期刊: Proceedings of the 34th International Joint Conference on Artificial Intelligence (IJCAI 2025), article no. 1066

DOI: 10.24963/ijcai.2025/1066


💡 一句话要点

利用大型语言模型评估AI对就业的影响,提出TEAI和TRAI指标。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 就业影响评估 人工智能 任务自动化 职业分析

📋 核心要点

  1. 现有方法难以准确评估AI技术对不同职业任务的影响程度,缺乏细粒度的量化指标。
  2. 利用大型语言模型评估AI执行任务的能力,构建TEAI和TRAI指标量化职业任务的AI暴露程度和替代风险。
  3. 实验表明,高技能岗位面临较高的AI暴露风险,但AI与人类在职业内呈现互补关系,促进生产力提升。

📝 摘要(中文)

本研究旨在通过数据驱动的方法,评估人工智能(AI)及相关技术对就业的影响,包括自动化和增强人类技能。我们开发了一个可复现的框架,利用先进的开源大型语言模型来评估AI和机器人在执行工作相关任务方面的能力。我们形式化并计算了两个指标:任务暴露于AI(TEAI)指数和任务被AI替代(TRAI)指数。这两个指标都经过了人工用户评估的验证,并与现有技术进行了比较。结果表明,TEAI指数与认知、问题解决和管理技能呈正相关,而与社交技能呈负相关。在美国的应用表明,约三分之一的就业岗位高度暴露于AI风险,主要集中在需要研究生或以上学历的高技能岗位。此外,AI暴露与2003-2023年间的就业和工资增长呈正相关,表明AI对生产力具有总体积极影响。TRAI指数显示,即使在高技能职业中,AI在任务替代方面也表现出高度的变异性,表明AI和人类在同一职业中相互补充,但职业内的任务分配可能会发生变化。所有结果、模型和代码均可在线免费获取,以便社区复现结果、比较结果,并将我们的工作作为基准来监测AI的长期进展。

🔬 方法详解

问题定义:论文旨在解决如何量化评估人工智能(AI)对不同职业中各项任务的影响程度,以及预测哪些工作更容易被AI自动化或增强的问题。现有方法通常依赖于专家评估或简单的规则,缺乏数据驱动的、细粒度的任务级别分析,难以准确反映AI技术的快速发展对就业市场带来的潜在影响。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大能力,模拟AI在执行各种工作任务时的表现。通过评估LLMs在执行特定任务时的能力,来推断该任务被AI自动化或增强的可能性。这种方法将AI的能力评估转化为一个可量化的指标,从而可以更客观地分析AI对就业的影响。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 任务定义:收集并整理不同职业的任务描述信息。2) LLM评估:使用LLMs执行这些任务,并评估其性能。3) 指标构建:基于LLMs的性能评估结果,构建TEAI(Task Exposure to AI)和TRAI(Task Replacement by AI)两个指标,分别衡量任务暴露于AI的程度和被AI替代的风险。4) 验证与分析:通过人工用户评估验证指标的有效性,并分析AI暴露与就业、工资增长之间的关系。

关键创新:该研究的关键创新在于利用LLMs作为评估AI能力的代理,从而实现对职业任务的自动化评估。与传统的专家评估方法相比,这种方法更加客观、可扩展,并且能够及时反映AI技术的最新进展。此外,TEAI和TRAI指标的提出,为量化AI对就业的影响提供了一种新的工具。

关键设计:论文的关键设计包括:1) LLM选择:选择合适的开源LLMs,并针对特定任务进行微调或提示工程。2) 评估指标:设计合理的评估指标来衡量LLMs在执行任务时的性能,例如准确率、效率等。3) 指标计算:设计TEAI和TRAI的计算公式,将LLMs的性能评估结果转化为可解释的指标。4) 用户评估:通过人工用户评估来验证TEAI和TRAI指标的有效性,并进行校正。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,TEAI指数与认知、问题解决和管理技能呈正相关,与社交技能呈负相关。对美国就业市场的分析显示,约三分之一的就业岗位高度暴露于AI风险,主要集中在高技能岗位。此外,AI暴露与2003-2023年间的就业和工资增长呈正相关,表明AI对生产力具有总体积极影响。

🎯 应用场景

该研究成果可应用于劳动力市场分析、职业规划、教育培训等领域。政府和企业可以利用TEAI和TRAI指标来预测未来就业市场的变化趋势,制定相应的政策和战略,以应对AI技术带来的挑战和机遇。个人可以利用这些指标来评估自身职业的AI暴露风险,并选择合适的技能提升方向。

📄 摘要(原文)

AI and related technologies are reshaping jobs and tasks, either by automating or augmenting human skills in the workplace. Many researchers have been working on estimating if and to what extent jobs and tasks are exposed to the risk of being automatized by AI-related technologies. Our work tackles this issue through a data-driven approach by: (i) developing a reproducible framework that uses cutting-edge open-source large language models to assess the current capabilities of AI and robotics in performing job-related tasks; (ii) formalizing and computing a measure of AI exposure by occupation, the Task Exposure to AI (TEAI) index, and a measure of Task Replacement by AI (TRAI), both validated through a human user evaluation and compared with the state of the art. Our results show that the TEAI index is positively correlated with cognitive, problem-solving and management skills, while it is negatively correlated with social skills. Applying the index to the US, we obtain that about one-third of US employment is highly exposed to AI, primarily in high-skill jobs requiring a graduate or postgraduate level of education. We also find that AI exposure is positively associated with both employment and wage growth in 2003-2023, suggesting that AI has an overall positive effect on productivity. Considering specifically the TRAI index, we find that even in high-skill occupations, AI exhibits high variability in task substitution, suggesting that AI and humans complement each other within the same occupation, while the allocation of tasks within occupations is likely to change. All results, models, and code are freely available online to allow the community to reproduce our results, compare outcomes, and use our work as a benchmark to monitor AI's progress over time.