PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

📄 arXiv: 2407.13244v1 📥 PDF

作者: Alessandro Berti, Humam Kourani, Wil M. P. van der Aalst

分类: cs.CL, cs.DB

发布日期: 2024-07-18


💡 一句话要点

PM-LLM-Benchmark:评估大型语言模型在流程挖掘任务中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 流程挖掘 基准测试 领域知识 评估偏差

📋 核心要点

  1. 现有流程挖掘任务中,开源LLM的性能与商业模型相比缺乏系统性评估和对比。
  2. 论文构建了PM-LLM-Benchmark,一个综合性的流程挖掘基准,用于评估LLM在流程挖掘任务中的表现。
  3. 实验结果表明,多数LLM能较好地完成部分流程挖掘任务,但小型模型仍有不足,且评估存在偏差。

📝 摘要(中文)

大型语言模型(LLMs)有潜力半自动化一些流程挖掘(PM)分析。虽然商业模型已经足够用于许多分析任务,但开源LLMs在PM任务中的竞争力尚不清楚。本文提出了PM-LLM-Benchmark,这是第一个全面的PM基准,专注于领域知识(流程挖掘特定和流程特定)以及不同的实现策略。我们还关注创建此类基准的挑战,包括数据的公开可用性以及LLMs的评估偏差。总体而言,我们观察到大多数被考虑的LLMs可以在令人满意的水平上执行一些流程挖掘任务,但可以在边缘设备上运行的小型模型仍然不足。我们还得出结论,虽然所提出的基准对于识别适合流程挖掘任务的LLMs很有用,但还需要进一步的研究来克服评估偏差并对有竞争力的LLMs进行更彻底的排名。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在流程挖掘(PM)任务中的性能评估问题。现有方法缺乏针对PM任务的专门基准,无法有效评估开源LLMs的竞争力,并且存在数据可用性和评估偏差等挑战。

核心思路:论文的核心思路是构建一个全面的PM基准(PM-LLM-Benchmark),该基准涵盖流程挖掘特定和流程特定的领域知识,并考虑不同的实现策略,从而系统地评估LLMs在PM任务中的表现。

技术框架:PM-LLM-Benchmark框架包含以下主要模块:1) 数据集构建,收集或生成用于评估的流程挖掘数据集;2) 任务定义,定义一系列流程挖掘任务,例如流程发现、合规性检查等;3) 评估指标,选择或设计合适的评估指标来衡量LLMs在不同任务上的性能;4) LLM集成,将不同的LLMs集成到评估框架中;5) 评估执行,运行LLMs在基准数据集上执行定义的任务,并记录评估结果。

关键创新:该基准是首个专门针对流程挖掘任务的LLM评估基准,它考虑了领域知识和不同的实现策略,并关注了数据可用性和评估偏差等挑战。这使得该基准能够更全面、更准确地评估LLMs在流程挖掘领域的应用潜力。

关键设计:基准的关键设计包括:1) 任务的多样性,涵盖了流程挖掘的多个核心任务;2) 数据的代表性,使用真实世界的流程数据和合成数据,以保证评估的泛化能力;3) 评估指标的合理性,选择或设计能够有效衡量LLMs在不同任务上性能的指标;4) 偏差控制,采用措施来减少评估偏差,例如使用盲测数据和人工评估。

📊 实验亮点

实验结果表明,大多数被评估的LLM在一定程度上能够胜任流程挖掘任务,但小型模型仍有不足。该基准的构建为评估LLM在流程挖掘领域的应用潜力提供了有效工具,并揭示了现有评估方法存在的偏差,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于流程挖掘领域的LLM选型和优化,帮助企业选择合适的LLM来半自动化流程分析任务。此外,该基准可以促进LLM在流程挖掘领域的进一步研究和发展,推动流程挖掘技术的智能化升级,提升企业运营效率和决策水平。

📄 摘要(原文)

Large Language Models (LLMs) have the potential to semi-automate some process mining (PM) analyses. While commercial models are already adequate for many analytics tasks, the competitive level of open-source LLMs in PM tasks is unknown. In this paper, we propose PM-LLM-Benchmark, the first comprehensive benchmark for PM focusing on domain knowledge (process-mining-specific and process-specific) and on different implementation strategies. We focus also on the challenges in creating such a benchmark, related to the public availability of the data and on evaluation biases by the LLMs. Overall, we observe that most of the considered LLMs can perform some process mining tasks at a satisfactory level, but tiny models that would run on edge devices are still inadequate. We also conclude that while the proposed benchmark is useful for identifying LLMs that are adequate for process mining tasks, further research is needed to overcome the evaluation biases and perform a more thorough ranking of the competitive LLMs.