Domain Adaptation of LLMs for Process Data

📄 arXiv: 2509.03161v1 📥 PDF

作者: Rafael Seidi Oyamada, Jari Peeperkorn, Jochen De Weerdt, Johannes De Smedt

分类: cs.CL, cs.AI

发布日期: 2025-09-03


💡 一句话要点

提出基于LLM领域自适应的过程数据预测方法,提升预测过程监控性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 过程挖掘 预测过程监控 领域自适应 参数高效微调

📋 核心要点

  1. 现有过程挖掘方法依赖于提示工程或将事件日志转换为自然语言,未能充分利用LLM的序列生成能力。
  2. 该研究提出直接将预训练LLM自适应于过程数据,通过参数高效微调,降低计算成本。
  3. 实验表明,该方法在预测过程监控任务中,优于RNN和基于叙述式风格的方法,尤其在多任务场景下。

📝 摘要(中文)

近年来,大型语言模型(LLMs)已成为包括过程挖掘(PM)在内的各个研究领域备受关注的焦点。目前PM中的应用主要集中于提示工程策略或将事件日志转换为叙述式数据集,从而利用LLM的语义能力来解决各种任务。与此不同,本研究调查了预训练LLM对过程数据的直接适应,无需自然语言重构,其动机是这些模型擅长生成token序列,类似于PM中的目标。更具体地说,我们专注于参数高效的微调技术,以减轻通常与此类模型相关的计算开销。我们的实验设置侧重于预测过程监控(PPM),并考虑单任务和多任务预测。结果表明,与最先进的循环神经网络(RNN)方法和最近基于叙述式风格的解决方案相比,预测性能可能有所提高,尤其是在多任务设置中。此外,我们微调后的模型表现出更快的收敛速度,并且需要明显更少的超参数优化。

🔬 方法详解

问题定义:现有的预测过程监控(PPM)方法,如RNN,在捕捉复杂的过程行为方面存在局限性。此外,将事件日志转换为自然语言叙述再利用LLM的方法,引入了额外的转换步骤,可能损失信息,且效率较低。因此,如何直接利用LLM强大的序列建模能力,高效地进行过程数据预测,是一个亟待解决的问题。

核心思路:该论文的核心思路是直接将预训练的LLM应用于过程数据,而无需将其转换为自然语言。作者认为,LLM擅长生成token序列,这与预测过程监控中预测下一个事件的目标天然契合。通过领域自适应,使LLM能够理解和处理过程数据,从而提高预测准确性和效率。

技术框架:该研究的技术框架主要包括以下几个步骤:1)选择合适的预训练LLM;2)设计过程数据的token化方案,将事件日志转换为LLM可以处理的token序列;3)采用参数高效的微调技术,如Adapter或LoRA,对LLM进行微调,使其适应过程数据的领域;4)在预测过程监控任务上评估微调后的LLM的性能。

关键创新:该论文的关键创新在于直接将LLM应用于过程数据,避免了自然语言转换带来的信息损失和计算开销。此外,采用参数高效的微调技术,降低了计算成本,使得在资源有限的情况下也能应用LLM。这种方法充分利用了LLM强大的序列建模能力,提高了预测过程监控的性能。

关键设计:论文采用了参数高效微调技术,具体选择哪种技术(Adapter, LoRA等)以及相关的参数设置(如Adapter的维度、LoRA的秩等)未知。损失函数方面,可能采用交叉熵损失函数,用于衡量预测结果与真实标签之间的差异。网络结构方面,主要依赖于所选择的预训练LLM的结构,并在其基础上添加或修改少量参数,以适应过程数据的领域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在预测过程监控任务中,优于传统的RNN方法和基于叙述式风格的方法,尤其是在多任务设置中。此外,微调后的模型收敛速度更快,且需要的超参数优化更少。具体的性能提升幅度未知,但结果表明了该方法在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于各种过程监控和管理领域,例如供应链管理、生产流程优化、医疗流程改进等。通过准确预测过程的未来发展,可以帮助企业及时发现潜在问题,优化资源分配,提高运营效率,降低成本,并提升客户满意度。未来,该方法可以扩展到更复杂的过程挖掘任务,例如过程发现和过程一致性检查。

📄 摘要(原文)

In recent years, Large Language Models (LLMs) have emerged as a prominent area of interest across various research domains, including Process Mining (PM). Current applications in PM have predominantly centered on prompt engineering strategies or the transformation of event logs into narrative-style datasets, thereby exploiting the semantic capabilities of LLMs to address diverse tasks. In contrast, this study investigates the direct adaptation of pretrained LLMs to process data without natural language reformulation, motivated by the fact that these models excel in generating sequences of tokens, similar to the objective in PM. More specifically, we focus on parameter-efficient fine-tuning techniques to mitigate the computational overhead typically associated with such models. Our experimental setup focuses on Predictive Process Monitoring (PPM), and considers both single- and multi-task predictions. The results demonstrate a potential improvement in predictive performance over state-of-the-art recurrent neural network (RNN) approaches and recent narrative-style-based solutions, particularly in the multi-task setting. Additionally, our fine-tuned models exhibit faster convergence and require significantly less hyperparameter optimization.