ProcessTBench: An LLM Plan Generation Dataset for Process Mining

📄 arXiv: 2409.09191v2 📥 PDF

作者: Andrei Cosmin Redis, Mohammadreza Fani Sani, Bahram Zarrin, Andrea Burattin

分类: cs.LG, cs.AI, cs.ET

发布日期: 2024-09-13 (更新: 2024-09-19)

备注: 6 pages, 4 figures, dataset available at https://github.com/microsoft/ProcessTBench


💡 一句话要点

ProcessTBench:用于流程挖掘的LLM计划生成数据集,扩展TaskBench以评估LLM在流程视角下的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 流程挖掘 大型语言模型 计划生成 数据集 流程自动化

📋 核心要点

  1. 现有数据集在处理复杂查询、多语言支持和并行动作管理方面存在不足,限制了LLM在实际流程应用中的评估。
  2. ProcessTBench数据集通过扩展TaskBench,着重于流程挖掘视角,旨在评估LLM在不同条件下的流程执行能力。
  3. 该数据集为研究LLM在理解和生成流程计划方面的能力提供了新的平台,有助于提升LLM在流程自动化领域的应用。

📝 摘要(中文)

大型语言模型(LLM)在计划生成方面展现出巨大的潜力。然而,现有的数据集通常缺乏高级工具使用场景所需的复杂性,例如处理释义的查询语句、支持多种语言以及管理可以并行执行的动作。这些场景对于评估LLM在实际应用中不断发展的能力至关重要。此外,当前的数据集无法从流程的角度研究LLM,尤其是在理解不同条件或表述下执行相同流程的典型行为和挑战至关重要的情况下。为了解决这些差距,我们提出了ProcessTBench合成数据集,它是TaskBench数据集的扩展,专门用于在流程挖掘框架内评估LLM。

🔬 方法详解

问题定义:现有LLM计划生成数据集缺乏对复杂流程场景的覆盖,无法充分评估LLM在实际流程挖掘应用中的能力。具体痛点包括:难以处理释义的查询语句,缺乏多语言支持,以及无法有效管理并行执行的动作。此外,现有数据集缺乏从流程角度对LLM进行评估的能力,难以分析LLM在不同条件下的流程执行行为。

核心思路:论文的核心思路是构建一个专门面向流程挖掘的LLM计划生成数据集,即ProcessTBench。该数据集通过扩展现有的TaskBench数据集,引入了更复杂的流程场景,从而能够更全面地评估LLM在流程理解和计划生成方面的能力。这样设计的原因在于,流程挖掘需要LLM具备处理复杂逻辑、理解上下文信息以及适应不同条件的能力。

技术框架:ProcessTBench数据集的构建基于TaskBench数据集,并在其基础上进行了扩展。具体来说,数据集包含了一系列流程场景,每个场景都包含多个任务,每个任务都有不同的执行条件和约束。数据集还提供了多种查询语句的释义版本,以及多种语言的支持。此外,数据集还考虑了并行执行的动作,从而能够更真实地模拟实际流程场景。整体流程是:首先定义流程场景,然后为每个场景生成任务和查询语句,最后对数据进行清洗和标注。

关键创新:ProcessTBench数据集的关键创新在于其面向流程挖掘的特性。与现有的LLM计划生成数据集相比,ProcessTBench更注重对流程场景的建模,能够更全面地评估LLM在流程理解和计划生成方面的能力。此外,ProcessTBench还支持多种查询语句的释义版本和多种语言,从而能够更灵活地应用于不同的场景。

关键设计:ProcessTBench数据集的关键设计包括:1) 流程场景的定义:采用流程挖掘领域常用的流程建模语言(如BPMN)来定义流程场景。2) 任务和查询语句的生成:采用基于规则的方法和基于LLM的方法相结合的方式来生成任务和查询语句。3) 数据清洗和标注:采用人工和自动相结合的方式对数据进行清洗和标注,确保数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProcessTBench数据集是TaskBench的扩展,专注于流程挖掘,旨在评估LLM在复杂流程场景下的计划生成能力。它支持释义查询、多语言和并行动作,为LLM在流程自动化领域的应用研究提供了新的基准。

🎯 应用场景

ProcessTBench数据集可用于评估和提升LLM在流程自动化、业务流程管理、智能决策支持等领域的应用能力。通过该数据集,研究人员可以开发更强大的LLM模型,从而实现更高效、更智能的流程自动化解决方案,并为企业提供更好的决策支持。

📄 摘要(原文)

Large Language Models (LLMs) have shown significant promise in plan generation. Yet, existing datasets often lack the complexity needed for advanced tool use scenarios - such as handling paraphrased query statements, supporting multiple languages, and managing actions that can be done in parallel. These scenarios are crucial for evaluating the evolving capabilities of LLMs in real-world applications. Moreover, current datasets don't enable the study of LLMs from a process perspective, particularly in scenarios where understanding typical behaviors and challenges in executing the same process under different conditions or formulations is crucial. To address these gaps, we present the ProcessTBench synthetic dataset, an extension of the TaskBench dataset specifically designed to evaluate LLMs within a process mining framework.