Domain Adaptation of LLMs for Process Data
作者: Rafael Seidi Oyamada, Jari Peeperkorn, Jochen De Weerdt, Johannes De Smedt
分类: cs.CL, cs.AI
发布日期: 2025-09-03
💡 一句话要点
提出基于LLM领域自适应的过程数据预测方法,提升预测过程监控性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 过程挖掘 预测过程监控 领域自适应 参数高效微调
📋 核心要点
- 现有过程挖掘方法依赖于RNN或将事件日志转换为自然语言,存在性能瓶颈和信息损失。
- 该论文提出直接将预训练LLM自适应于过程数据,利用其序列生成能力,避免自然语言转换。
- 实验表明,该方法在预测过程监控任务中,尤其是在多任务场景下,优于现有RNN和叙述式方法。
📝 摘要(中文)
近年来,大型语言模型(LLMs)已成为包括过程挖掘(PM)在内的各个研究领域备受关注的热点。目前PM中的应用主要集中于提示工程策略或将事件日志转换为叙述式数据集,从而利用LLM的语义能力来解决各种任务。与此不同,本研究调查了预训练LLM直接适应过程数据的方法,无需自然语言重构,其动机是这些模型擅长生成token序列,类似于PM中的目标。更具体地说,我们专注于参数高效的微调技术,以减轻通常与此类模型相关的计算开销。我们的实验设置侧重于预测过程监控(PPM),并考虑单任务和多任务预测。结果表明,与最先进的循环神经网络(RNN)方法和最近基于叙述式风格的解决方案相比,预测性能具有潜在的改进,尤其是在多任务设置中。此外,我们微调后的模型表现出更快的收敛速度,并且需要显著更少的超参数优化。
🔬 方法详解
问题定义:现有预测过程监控(PPM)方法,如RNN,在处理复杂过程数据时存在性能瓶颈。将事件日志转换为自然语言叙述的方式,虽然可以利用LLM的语义能力,但会引入信息损失,且依赖于高质量的转换规则。因此,如何直接利用LLM的强大序列建模能力,避免自然语言转换,成为一个关键问题。
核心思路:该论文的核心思路是直接将预训练的LLM应用于过程数据,无需将其转换为自然语言。LLM本质上擅长生成token序列,而过程数据也可以被视为事件序列。通过领域自适应,使LLM能够理解和预测过程数据的演变。
技术框架:该研究采用参数高效的微调(Parameter-Efficient Fine-Tuning)技术,以降低计算成本。具体流程如下:1) 选择一个预训练的LLM作为基础模型。2) 使用过程数据集对LLM进行微调,使其适应过程数据的特性。3) 在预测过程监控任务中评估微调后的模型性能,包括单任务和多任务预测。
关键创新:该论文的关键创新在于直接将LLM应用于过程数据,避免了自然语言转换带来的信息损失。此外,采用参数高效的微调技术,降低了计算成本,使得在资源有限的情况下也能有效利用LLM。
关键设计:该研究重点关注参数高效的微调技术,例如Adapter或LoRA等,以减少需要训练的参数数量,从而降低计算开销并加速收敛。损失函数根据预测任务的类型进行选择,例如,分类任务使用交叉熵损失,回归任务使用均方误差损失。具体的网络结构取决于所选择的LLM,但通常会添加一个或多个线性层来将LLM的输出映射到预测目标。
📊 实验亮点
实验结果表明,该方法在预测过程监控任务中,尤其是在多任务场景下,优于现有的RNN方法和基于叙述式风格的解决方案。微调后的模型表现出更快的收敛速度,并且需要显著更少的超参数优化。这些结果表明,直接将LLM应用于过程数据具有很大的潜力。
🎯 应用场景
该研究成果可应用于各种过程监控和管理领域,例如供应链管理、医疗流程优化、金融风险控制等。通过更准确地预测过程事件的发生,可以提前采取干预措施,提高效率、降低成本、改善服务质量,并为决策提供更可靠的依据。未来,该方法可以扩展到更复杂的过程场景,并与其他技术(如强化学习)相结合,实现更智能化的过程管理。
📄 摘要(原文)
In recent years, Large Language Models (LLMs) have emerged as a prominent area of interest across various research domains, including Process Mining (PM). Current applications in PM have predominantly centered on prompt engineering strategies or the transformation of event logs into narrative-style datasets, thereby exploiting the semantic capabilities of LLMs to address diverse tasks. In contrast, this study investigates the direct adaptation of pretrained LLMs to process data without natural language reformulation, motivated by the fact that these models excel in generating sequences of tokens, similar to the objective in PM. More specifically, we focus on parameter-efficient fine-tuning techniques to mitigate the computational overhead typically associated with such models. Our experimental setup focuses on Predictive Process Monitoring (PPM), and considers both single- and multi-task predictions. The results demonstrate a potential improvement in predictive performance over state-of-the-art recurrent neural network (RNN) approaches and recent narrative-style-based solutions, particularly in the multi-task setting. Additionally, our fine-tuned models exhibit faster convergence and require significantly less hyperparameter optimization.