MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems
作者: Arda Yüksel, Gabriel Thiem, Susanne Walter, Patrick Felka, Gabriela Alves Werb, Ivan Habernal
分类: cs.AI
发布日期: 2026-04-09
💡 一句话要点
MONETA:利用地理信息和多智能体系统进行多模态行业分类
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 行业分类 地理信息 多智能体系统 大型语言模型
📋 核心要点
- 行业分类是公共和企业数据库的重要组成部分,但手动标注成本高昂,且每次更新行业分类方案都需要大量数据。
- 论文提出MONETA,利用现有的或易于检索的多模态资源(文本和地理空间数据)进行行业分类,模拟人工专家验证过程。
- 实验结果表明,结合多轮设计、上下文丰富和分类解释,可以显著提高多模态大型语言模型在行业分类任务上的准确率。
📝 摘要(中文)
本文提出了MONETA,一个用于多模态行业分类的基准数据集,该数据集利用文本(网站、维基百科、维基数据)和地理空间资源(OpenStreetMap和卫星图像)。该数据集包含欧洲的1000家企业,并根据欧盟指南(NACE)标注了20个经济活动标签。研究表明,无需训练的基线模型在使用开源和闭源的多模态大型语言模型(MLLM)时,分别达到了62.10%和74.10%的准确率。通过多轮设计、上下文丰富和分类解释的结合,准确率最多可提高22.80%。该数据集和增强指南将会开源。
🔬 方法详解
问题定义:论文旨在解决行业分类问题,现有方法主要依赖人工标注,成本高昂且难以适应行业分类方案的频繁更新。因此,需要一种自动化的、能够利用多种数据源进行行业分类的方法。现有方法的痛点在于数据获取困难、模型训练成本高以及难以解释分类结果。
核心思路:论文的核心思路是利用多模态信息(文本和地理空间数据)来模拟人工专家进行行业分类的过程。通过结合企业的网站、维基百科、维基数据等文本信息以及OpenStreetMap和卫星图像等地理空间信息,可以更全面地了解企业的业务活动,从而提高分类的准确性。
技术框架:MONETA框架包含数据收集、数据预处理、特征提取和分类预测四个主要阶段。首先,从各种来源收集企业的文本和地理空间数据。然后,对数据进行清洗和预处理,例如文本数据的分词、去除停用词等。接着,利用多模态大型语言模型(MLLM)提取文本和地理空间数据的特征。最后,将提取的特征输入到分类器中进行行业分类预测。论文还探索了多轮设计、上下文丰富和分类解释等技术来进一步提高分类性能。
关键创新:论文的关键创新在于提出了一个多模态行业分类基准数据集MONETA,该数据集包含了文本和地理空间数据,为研究人员提供了一个评估多模态行业分类算法的平台。此外,论文还探索了利用多模态大型语言模型进行行业分类的方法,并提出了多轮设计、上下文丰富和分类解释等技术来提高分类性能。与现有方法相比,MONETA能够利用更多的数据源,并且具有更高的分类准确性和可解释性。
关键设计:论文的关键设计包括:1) 数据集的构建,包括数据来源的选择、数据标注的规范等;2) 多模态大型语言模型的选择和使用,包括模型的微调策略、特征融合方法等;3) 多轮设计、上下文丰富和分类解释等技术的实现细节,例如如何设计多轮对话、如何选择上下文信息、如何生成分类解释等。具体的参数设置、损失函数、网络结构等技术细节在论文中没有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,无需训练的基线模型在使用开源和闭源的多模态大型语言模型(MLLM)时,分别达到了62.10%和74.10%的准确率。通过多轮设计、上下文丰富和分类解释的结合,准确率最多可提高22.80%。这些结果表明,多模态信息对于行业分类具有重要价值,并且多模态大型语言模型在行业分类任务上具有很大的潜力。
🎯 应用场景
该研究成果可应用于企业信息管理、市场分析、风险评估等领域。通过自动化的行业分类,可以降低企业信息管理的成本,提高市场分析的效率,并为风险评估提供更准确的数据支持。未来,该技术还可以应用于智能城市建设、区域经济发展规划等领域。
📄 摘要(原文)
Industry classification schemes are integral parts of public and corporate databases as they classify businesses based on economic activity. Due to the size of the company registers, manual annotation is costly, and fine-tuning models with every update in industry classification schemes requires significant data collection. We replicate the manual expert verification by using existing or easily retrievable multimodal resources for industry classification. We present MONETA, the first multimodal industry classification benchmark with text (Website, Wikipedia, Wikidata) and geospatial sources (OpenStreetMap and satellite imagery). Our dataset enlists 1,000 businesses in Europe with 20 economic activity labels according to EU guidelines (NACE). Our training-free baseline reaches 62.10% and 74.10% with open and closed-source Multimodal Large Language Models (MLLM). We observe an increase of up to 22.80% with the combination of multi-turn design, context enrichment, and classification explanations. We will release our dataset and the enhanced guidelines.