MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems

📄 arXiv: 2604.07956v2 📥 PDF

作者: Arda Yüksel, Gabriel Thiem, Susanne Walter, Patrick Felka, Gabriela Alves Werb, Ivan Habernal

分类: cs.AI

发布日期: 2026-04-09 (更新: 2026-04-10)

备注: Accepted to ACL 2026 Main Conference


💡 一句话要点

MONETA:利用地理信息和多智能体系统进行多模态行业分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行业分类 多模态学习 地理信息 多智能体系统 大型语言模型 基准数据集 经济活动

📋 核心要点

  1. 行业分类是公共和企业数据库的重要组成部分,但手动标注成本高昂,且每次更新行业分类方案都需要大量数据收集。
  2. 论文提出MONETA,利用现有的或易于检索的多模态资源(文本和地理空间数据)进行行业分类,模拟人工专家验证过程。
  3. 实验结果表明,结合多轮设计、上下文丰富和分类解释,模型性能显著提升,最高可达22.80%。

📝 摘要(中文)

本文提出了MONETA,一个多模态行业分类基准,利用文本(网站、维基百科、维基数据)和地理空间资源(OpenStreetMap和卫星图像)。该数据集包含欧洲的1000家企业,并根据欧盟指南(NACE)标注了20个经济活动标签。无需训练的基线模型在使用开源和闭源多模态大型语言模型(MLLM)时分别达到了62.10%和74.10%的准确率。通过结合多轮设计、上下文丰富和分类解释,观察到准确率提升高达22.80%。该数据集和增强指南将会开源。

🔬 方法详解

问题定义:论文旨在解决行业分类问题,现有方法主要依赖人工标注,成本高昂且难以适应行业分类方案的频繁更新。现有方法缺乏对多模态信息的有效利用,特别是地理空间信息,限制了分类的准确性和效率。

核心思路:论文的核心思路是利用多模态信息(文本和地理空间数据)来自动化行业分类过程,模拟人工专家验证。通过结合企业网站、维基百科、OpenStreetMap和卫星图像等多源信息,更全面地了解企业的经济活动。

技术框架:MONETA框架包含数据收集、多模态特征提取和分类三个主要阶段。首先,收集企业的文本和地理空间数据。然后,利用多模态大型语言模型(MLLM)提取文本和图像特征。最后,结合多轮设计、上下文丰富和分类解释,进行行业分类。

关键创新:论文的关键创新在于构建了一个多模态行业分类基准数据集MONETA,并提出了一种基于多模态信息融合的行业分类方法。该方法充分利用了文本和地理空间数据,提高了分类的准确性和效率。此外,论文还探索了多轮设计、上下文丰富和分类解释等技术,进一步提升了模型性能。

关键设计:论文的关键设计包括:1) 数据集的构建,包含欧洲1000家企业,并根据欧盟NACE标准标注了20个经济活动标签;2) 多模态特征提取,利用MLLM提取文本和图像特征;3) 多轮设计,通过多轮交互来提升分类准确性;4) 上下文丰富,利用维基百科和维基数据等外部知识来增强上下文信息;5) 分类解释,提供分类结果的解释,增强模型的可解释性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,无需训练的基线模型在使用开源和闭源多模态大型语言模型时分别达到了62.10%和74.10%的准确率。通过结合多轮设计、上下文丰富和分类解释,准确率提升高达22.80%。这些结果表明,多模态信息融合和上下文增强可以显著提高行业分类的准确性。

🎯 应用场景

该研究成果可应用于企业信息管理、市场分析、经济统计等领域。通过自动化行业分类,可以降低人工成本,提高数据质量,为政府和企业提供更准确的经济信息。未来,该方法可以扩展到其他地区的行业分类,并与其他数据源相结合,进一步提升分类的准确性和应用范围。

📄 摘要(原文)

Industry classification schemes are integral parts of public and corporate databases as they classify businesses based on economic activity. Due to the size of the company registers, manual annotation is costly, and fine-tuning models with every update in industry classification schemes requires significant data collection. We replicate the manual expert verification by using existing or easily retrievable multimodal resources for industry classification. We present MONETA, the first multimodal industry classification benchmark with text (Website, Wikipedia, Wikidata) and geospatial sources (OpenStreetMap and satellite imagery). Our dataset enlists 1,000 businesses in Europe with 20 economic activity labels according to EU guidelines (NACE). Our training-free baseline reaches 62.10% and 74.10% with open and closed-source Multimodal Large Language Models (MLLM). We observe an increase of up to 22.80% with the combination of multi-turn design, context enrichment, and classification explanations. We will release our dataset and the enhanced guidelines.