TAAF: A Trace Abstraction and Analysis Framework Synergizing Knowledge Graphs and LLMs
作者: Alireza Ezaz, Ghazal Khodabandeh, Majid Babaei, Naser Ezzati-Jivan
分类: cs.SE, cs.AI
发布日期: 2026-01-06
备注: Accepted to ICSE 2026. DOI 10.1145/3744916.3787832
💡 一句话要点
TAAF:结合知识图谱与LLM的追踪抽象与分析框架,提升系统理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 追踪分析 知识图谱 大型语言模型 系统调试 性能优化
📋 核心要点
- 现有追踪分析工具依赖预定义分析,定制化分析需编写领域脚本,易错且耗时,难以应对大规模复杂系统的追踪数据分析。
- TAAF框架通过构建时间索引知识图谱,并结合大型语言模型,将原始追踪数据转化为可解释的自然语言答案,降低人工分析成本。
- TraceQA-100基准测试表明,TAAF在多跳和因果推理任务中,答案准确率提升高达31.2%,验证了该方法在追踪分析方面的有效性。
📝 摘要(中文)
本文提出TAAF(追踪抽象与分析框架),一种结合时间索引、知识图谱(KG)和大型语言模型(LLM)的新方法,旨在将原始追踪数据转化为可操作的洞察。TAAF从追踪事件构建时间索引的KG,以捕获线程、CPU和系统资源等实体之间的关系。然后,LLM解释特定于查询的子图,以回答自然语言问题,从而减少了手动检查和深入的系统专业知识的需求。为了评估TAAF,我们引入了TraceQA-100,这是一个基于真实内核追踪的100个问题的基准。跨三个LLM和多个时间设置的实验表明,TAAF将答案准确性提高了高达31.2%,尤其是在多跳和因果推理任务中。我们进一步分析了图结构推理的优势和局限性,为下一代追踪分析工具奠定了基础。
🔬 方法详解
问题定义:论文旨在解决大规模复杂软件系统(如操作系统内核、Chrome、MySQL)的执行追踪分析难题。现有工具依赖预定义分析,定制化分析需要编写领域特定脚本,过程繁琐、易出错,且需要深厚的系统知识背景。因此,如何高效、准确地从海量追踪数据中提取有价值的信息,是亟待解决的问题。
核心思路:论文的核心思路是将追踪数据转化为知识图谱,利用知识图谱的结构化信息和推理能力,辅助大型语言模型理解追踪数据,并回答用户提出的自然语言问题。通过知识图谱对追踪数据进行抽象和关联,降低了LLM直接处理原始数据的难度,提高了分析的准确性和效率。
技术框架:TAAF框架主要包含以下几个阶段:1) 追踪数据收集:从目标系统收集原始执行追踪数据。2) 时间索引:对追踪数据进行时间索引,方便后续的时间序列分析。3) 知识图谱构建:从追踪事件中提取实体和关系,构建时间索引的知识图谱,节点表示线程、CPU、资源等实体,边表示实体间的关系。4) 查询处理:接收用户输入的自然语言查询,并将其转化为知识图谱上的子图查询。5) LLM推理:利用大型语言模型对查询子图进行推理,生成自然语言答案。
关键创新:TAAF的关键创新在于将知识图谱和大型语言模型相结合,用于解决追踪分析问题。与传统方法相比,TAAF无需编写复杂的脚本,即可实现定制化的分析,并且能够利用LLM的自然语言理解能力,提高分析的效率和准确性。此外,时间索引的引入,使得TAAF能够更好地处理时间序列相关的查询。
关键设计:TAAF在知识图谱构建方面,需要定义合适的实体类型和关系类型,以准确地表示追踪数据中的信息。在LLM推理方面,需要选择合适的LLM,并设计合适的prompt,引导LLM进行推理。TraceQA-100基准测试包含100个基于真实内核追踪的问题,涵盖了单跳、多跳、因果推理等多种类型,用于评估TAAF的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TAAF在TraceQA-100基准测试中,相比直接使用LLM,答案准确率提升高达31.2%。尤其是在多跳和因果推理任务中,TAAF的优势更加明显。实验对比了不同LLM在TAAF框架下的性能,验证了TAAF的通用性和有效性。这些结果表明,知识图谱能够有效辅助LLM理解追踪数据,提高分析的准确性和效率。
🎯 应用场景
TAAF框架可应用于操作系统内核调试、大规模应用程序性能优化、安全漏洞分析等领域。通过将复杂的追踪数据转化为易于理解的自然语言答案,TAAF降低了系统分析的门槛,提高了分析效率,有助于开发人员快速定位问题、优化系统性能、提升系统安全性。未来,TAAF有望成为下一代追踪分析工具的基础。
📄 摘要(原文)
Execution traces are a critical source of information for understanding, debugging, and optimizing complex software systems. However, traces from OS kernels or large-scale applications like Chrome or MySQL are massive and difficult to analyze. Existing tools rely on predefined analyses, and custom insights often require writing domain-specific scripts, which is an error-prone and time-consuming task. This paper introduces TAAF (Trace Abstraction and Analysis Framework), a novel approach that combines time-indexing, knowledge graphs (KGs), and large language models (LLMs) to transform raw trace data into actionable insights. TAAF constructs a time-indexed KG from trace events to capture relationships among entities such as threads, CPUs, and system resources. An LLM then interprets query-specific subgraphs to answer natural-language questions, reducing the need for manual inspection and deep system expertise. To evaluate TAAF, we introduce TraceQA-100, a benchmark of 100 questions grounded in real kernel traces. Experiments across three LLMs and multiple temporal settings show that TAAF improves answer accuracy by up to 31.2%, particularly in multi-hop and causal reasoning tasks. We further analyze where graph-grounded reasoning helps and where limitations remain, offering a foundation for next-generation trace analysis tools.