DP-FlogTinyLLM: Differentially private federated log anomaly detection using Tiny LLMs

📄 arXiv: 2604.19118v1 📥 PDF

作者: Isaiah Thompson, Tanmay Sen, Ritwik Bhattacharya

分类: cs.CR, cs.AI

发布日期: 2026-04-21


💡 一句话要点

提出DP-FLogTinyLLM,用于在保护隐私的联邦环境中进行日志异常检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 差分隐私 日志异常检测 大型语言模型 参数高效微调 LoRA 分布式系统

📋 核心要点

  1. 现有日志异常检测方法依赖集中式训练,无法直接应用于数据分散且有隐私要求的场景。
  2. DP-FLogTinyLLM结合联邦学习、差分隐私和LoRA,实现隐私保护的分布式日志异常检测。
  3. 实验表明,该框架在性能上与集中式LLM方法相当,且优于现有联邦基线,尤其在精度和F1值上。

📝 摘要(中文)

现代分布式系统产生大量的日志数据,这些数据对于检测异常和网络威胁至关重要。然而,在实际环境中,这些日志通常分布在多个组织中,由于隐私和安全限制而无法集中处理。现有的日志异常检测方法,包括最近基于大型语言模型(LLM)的方法,主要依赖于集中式训练,不适用于此类环境。本文提出了DP-FLogTinyLLM,一个保护隐私的联邦框架,用于使用参数高效的LLM进行日志异常检测。我们的方法通过将联邦优化与差分隐私相结合,实现了在不共享原始日志数据的情况下进行协作学习。为了确保在资源受限环境中的可扩展性,我们采用低秩适应(LoRA)来高效地微调每个客户端上的Tiny LLM。在Thunderbird和BGL数据集上的实验结果表明,所提出的框架在性能上与集中式LLM方法相匹配,同时由于隐私机制而产生额外的计算开销。与现有的联邦基线相比,DP-FLogTinyLLM始终获得更高的精度和F1分数,尤其是在Thunderbird数据集上表现出强大的优势,突出了其在检测异常的同时最大限度地减少误报的有效性。

🔬 方法详解

问题定义:论文旨在解决分布式系统中日志数据隐私保护的异常检测问题。现有方法,特别是基于大型语言模型的方法,通常需要集中式的数据访问,这在许多实际场景中是不可行的,因为数据可能分布在不同的组织中,并且受到隐私法规的保护。因此,需要一种能够在不共享原始数据的情况下进行协作学习的异常检测方法。

核心思路:论文的核心思路是将联邦学习、差分隐私和参数高效的微调技术(LoRA)相结合。联邦学习允许多个客户端在本地训练模型,然后将模型更新聚合到服务器端,而无需共享原始数据。差分隐私则通过在训练过程中添加噪声来进一步保护数据的隐私。LoRA用于在资源受限的客户端上高效地微调大型语言模型。

技术框架:DP-FLogTinyLLM框架包含以下主要模块:1) 客户端本地训练:每个客户端使用本地日志数据和LoRA微调TinyLLM。2) 差分隐私机制:在客户端上传模型更新之前,应用差分隐私机制添加噪声。3) 联邦聚合:服务器端接收来自客户端的更新,并使用联邦平均算法聚合这些更新,得到全局模型。4) 全局模型评估:使用验证集评估全局模型的性能。

关键创新:该论文的关键创新在于将差分隐私和参数高效的微调技术(LoRA)集成到联邦学习框架中,以实现隐私保护的分布式日志异常检测。与传统的联邦学习方法相比,该方法能够提供更强的隐私保证,同时保持较高的检测性能。此外,使用TinyLLM和LoRA使得该方法能够在资源受限的环境中部署。

关键设计:关键设计包括:1) TinyLLM的选择:选择参数量较小的LLM,以适应资源受限的客户端。2) LoRA的配置:调整LoRA的秩和缩放因子,以平衡模型性能和训练效率。3) 差分隐私参数:选择合适的差分隐私参数(如隐私预算ε和δ),以控制隐私保护的强度。4) 联邦平均算法:使用联邦平均算法聚合客户端的模型更新,并设置合适的学习率和迭代次数。

📊 实验亮点

实验结果表明,DP-FLogTinyLLM在Thunderbird和BGL数据集上取得了与集中式LLM方法相当的性能。与现有的联邦基线相比,DP-FLogTinyLLM在精度和F1分数上均有显著提升,尤其是在Thunderbird数据集上,精度提升尤为明显,表明其在减少误报方面具有优势。这些结果验证了该框架在隐私保护和异常检测性能之间的良好平衡。

🎯 应用场景

DP-FLogTinyLLM可应用于各种分布式系统中的日志异常检测,例如云计算平台、物联网设备网络和金融机构。它能够在保护用户隐私的前提下,实现跨组织的安全协作,从而提高异常检测的准确性和效率,降低安全风险。该研究为构建安全可靠的分布式系统提供了新的思路。

📄 摘要(原文)

Modern distributed systems generate massive volumes of log data that are critical for detecting anomalies and cyber threats. However, in real world settings, these logs are often distributed across multiple organizations and cannot be centralized due to privacy and security constraints. Existing log anomaly detection methods, including recent large language model (LLM) based approaches, largely rely on centralized training and are not suitable for such environments. In this paper, we propose DP-FLogTinyLLM, a privacy preserving federated framework for log anomaly detection using parameter efficient LLMs. Our approach enables collaborative learning without sharing raw log data by integrating federated optimization with differential privacy. To ensure scalability in resource constrained environments, we employ low rank adaptation (LoRA) for efficient fine tuning of Tiny LLMs at each client. Empirical results on the Thunderbird and BGL datasets show that the proposed framework matches the performance of centralized LLM based methods, while incurring additional computational overhead due to privacy mechanisms. Compared to existing federated baselines, DP-FLogTinyLLM consistently achieves higher precision and F1-score, with particularly strong gains on the Thunderbird dataset, highlighting its effectiveness in detecting anomalies while minimizing false positives.