A Unified Framework to Classify Business Activities into International Standard Industrial Classification through Large Language Models for Circular Economy
作者: Xiang Li, Lan Zhao, Junhao Ren, Yajuan Sun, Chuan Fu Tan, Zhiquan Yeo, Gaoxi Xiao
分类: cs.CL, cs.AI, econ.GN
发布日期: 2024-09-17
备注: 6 pages, 2 figures, accepted in 2024 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM 2024)
💡 一句话要点
利用大型语言模型将商业活动分类到国际标准产业分类,促进循环经济发展。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 国际标准产业分类 循环经济 文本分类 GPT-2 知识库 商业活动分类
📋 核心要点
- 现有方法缺乏统一标准来表示不同地区的商业活动,阻碍了循环经济知识库的构建。
- 利用大型语言模型将经济活动描述文本分类到国际标准产业分类(ISIC)中,实现标准化。
- 通过微调GPT-2模型,在182个标签的测试数据集上实现了95%的分类准确率。
📝 摘要(中文)
为了开发促进循环经济实践的推荐系统,有效的信息收集和知识编纂至关重要。一个有前景的方法是创建一个集中式的知识库,对历史上的废弃物转化为资源的交易进行编目,从而能够根据过去的成功经验生成推荐。然而,构建这样一个知识库的一个重大障碍是缺乏一个普遍标准化的框架来表示不同地理区域的商业活动。为了解决这个问题,本文利用大型语言模型(LLM)将描述经济活动的文本数据分类到国际标准产业分类(ISIC)中,这是一个全球公认的经济活动分类框架。这种方法使得全球企业提供的任何经济活动描述都可以被分类到统一的ISIC标准中,从而促进了集中式知识库的创建。我们的方法在使用微调的GPT-2模型在182个标签的测试数据集上实现了95%的准确率。这项研究通过为可在各区域部署的知识编纂和推荐系统提供标准化的基础,为促进可持续循环经济实践的全球努力做出了贡献。
🔬 方法详解
问题定义:论文旨在解决循环经济领域中,由于缺乏统一的商业活动分类标准,导致难以构建集中式知识库的问题。现有方法无法有效地整合和利用来自不同地区、使用不同描述方式的商业活动信息,阻碍了循环经济推荐系统的发展。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的文本理解和分类能力,将各种形式的商业活动描述文本映射到国际标准产业分类(ISIC)体系中。通过将非标准化的描述转化为标准化的ISIC代码,实现跨区域、跨语言的商业活动信息整合。
技术框架:整体框架包括数据收集、数据预处理、模型训练和模型评估四个主要阶段。首先,收集包含商业活动描述的文本数据。然后,对文本数据进行清洗、分词等预处理操作。接着,使用预训练的GPT-2模型,并在ISIC分类数据集上进行微调。最后,使用测试数据集评估模型的分类准确率。
关键创新:该研究的关键创新在于将大型语言模型应用于商业活动分类任务,并将其与国际标准产业分类体系相结合。与传统的基于规则或机器学习的分类方法相比,LLM能够更好地理解文本语义,处理复杂的商业活动描述,并具有更强的泛化能力。
关键设计:论文使用GPT-2作为基础模型,并通过微调的方式使其适应ISIC分类任务。具体来说,将商业活动描述文本作为输入,GPT-2模型输出文本属于各个ISIC类别的概率分布。损失函数采用交叉熵损失函数,优化器采用AdamW。实验中,作者探索了不同的超参数设置,如学习率、batch size等,以获得最佳的分类性能。模型训练完成后,使用测试集评估模型的准确率、精确率、召回率和F1值等指标。
📊 实验亮点
该研究使用微调的GPT-2模型在包含182个ISIC标签的测试数据集上实现了95%的分类准确率。这一结果表明,大型语言模型在商业活动分类任务中具有显著的优势,能够有效地将非标准化的商业活动描述映射到国际标准产业分类体系中,为构建全球循环经济知识库奠定了基础。
🎯 应用场景
该研究成果可应用于构建全球循环经济知识库,为企业提供资源回收、废物处理等方面的推荐。通过对商业活动进行标准化分类,可以促进跨区域的合作与交流,加速循环经济模式的推广。此外,该方法还可以应用于其他需要对文本数据进行分类的领域,如市场调研、政策分析等。
📄 摘要(原文)
Effective information gathering and knowledge codification are pivotal for developing recommendation systems that promote circular economy practices. One promising approach involves the creation of a centralized knowledge repository cataloguing historical waste-to-resource transactions, which subsequently enables the generation of recommendations based on past successes. However, a significant barrier to constructing such a knowledge repository lies in the absence of a universally standardized framework for representing business activities across disparate geographical regions. To address this challenge, this paper leverages Large Language Models (LLMs) to classify textual data describing economic activities into the International Standard Industrial Classification (ISIC), a globally recognized economic activity classification framework. This approach enables any economic activity descriptions provided by businesses worldwide to be categorized into the unified ISIC standard, facilitating the creation of a centralized knowledge repository. Our approach achieves a 95% accuracy rate on a 182-label test dataset with fine-tuned GPT-2 model. This research contributes to the global endeavour of fostering sustainable circular economy practices by providing a standardized foundation for knowledge codification and recommendation systems deployable across regions.