TAAF: A Trace Abstraction and Analysis Framework Synergizing Knowledge Graphs and LLMs

作者: Alireza Ezaz, Ghazal Khodabandeh, Majid Babaei, Naser Ezzati-Jivan

分类: cs.SE, cs.AI

发布日期: 2026-01-06

备注: Accepted to ICSE 2026. DOI 10.1145/3744916.3787832

DOI: 10.1145/3744916.3787832

💡 一句话要点

TAAF：结合知识图谱与LLM的追踪抽象与分析框架，提升系统理解

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 追踪分析 知识图谱 大型语言模型 系统调试 性能优化

📋 核心要点

现有追踪分析工具依赖预定义分析，定制化分析需编写领域脚本，易错且耗时，难以应对大规模复杂系统的追踪数据分析。
TAAF框架通过构建时间索引知识图谱，并结合大型语言模型，将原始追踪数据转化为可解释的自然语言答案，降低人工分析成本。
TraceQA-100基准测试表明，TAAF在多跳和因果推理任务中，答案准确率提升高达31.2%，验证了该方法在追踪分析方面的有效性。

📝 摘要（中文）

本文提出TAAF（追踪抽象与分析框架），一种结合时间索引、知识图谱（KG）和大型语言模型（LLM）的新方法，旨在将原始追踪数据转化为可操作的洞察。TAAF从追踪事件构建时间索引的KG，以捕获线程、CPU和系统资源等实体之间的关系。然后，LLM解释特定于查询的子图，以回答自然语言问题，从而减少了手动检查和深入的系统专业知识的需求。为了评估TAAF，我们引入了TraceQA-100，这是一个基于真实内核追踪的100个问题的基准。跨三个LLM和多个时间设置的实验表明，TAAF将答案准确性提高了高达31.2%，尤其是在多跳和因果推理任务中。我们进一步分析了图结构推理的优势和局限性，为下一代追踪分析工具奠定了基础。

🔬 方法详解

问题定义：论文旨在解决大规模复杂软件系统（如操作系统内核、Chrome、MySQL）的执行追踪分析难题。现有工具依赖预定义分析，定制化分析需要编写领域特定脚本，过程繁琐、易出错，且需要深厚的系统知识背景。因此，如何高效、准确地从海量追踪数据中提取有价值的信息，是亟待解决的问题。

核心思路：论文的核心思路是将追踪数据转化为知识图谱，利用知识图谱的结构化信息和推理能力，辅助大型语言模型理解追踪数据，并回答用户提出的自然语言问题。通过知识图谱对追踪数据进行抽象和关联，降低了LLM直接处理原始数据的难度，提高了分析的准确性和效率。

技术框架：TAAF框架主要包含以下几个阶段：1) 追踪数据收集：从目标系统收集原始执行追踪数据。2) 时间索引：对追踪数据进行时间索引，方便后续的时间序列分析。3) 知识图谱构建：从追踪事件中提取实体和关系，构建时间索引的知识图谱，节点表示线程、CPU、资源等实体，边表示实体间的关系。4) 查询处理：接收用户输入的自然语言查询，并将其转化为知识图谱上的子图查询。5) LLM推理：利用大型语言模型对查询子图进行推理，生成自然语言答案。

关键创新：TAAF的关键创新在于将知识图谱和大型语言模型相结合，用于解决追踪分析问题。与传统方法相比，TAAF无需编写复杂的脚本，即可实现定制化的分析，并且能够利用LLM的自然语言理解能力，提高分析的效率和准确性。此外，时间索引的引入，使得TAAF能够更好地处理时间序列相关的查询。

关键设计：TAAF在知识图谱构建方面，需要定义合适的实体类型和关系类型，以准确地表示追踪数据中的信息。在LLM推理方面，需要选择合适的LLM，并设计合适的prompt，引导LLM进行推理。TraceQA-100基准测试包含100个基于真实内核追踪的问题，涵盖了单跳、多跳、因果推理等多种类型，用于评估TAAF的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TAAF在TraceQA-100基准测试中，相比直接使用LLM，答案准确率提升高达31.2%。尤其是在多跳和因果推理任务中，TAAF的优势更加明显。实验对比了不同LLM在TAAF框架下的性能，验证了TAAF的通用性和有效性。这些结果表明，知识图谱能够有效辅助LLM理解追踪数据，提高分析的准确性和效率。

🎯 应用场景

TAAF框架可应用于操作系统内核调试、大规模应用程序性能优化、安全漏洞分析等领域。通过将复杂的追踪数据转化为易于理解的自然语言答案，TAAF降低了系统分析的门槛，提高了分析效率，有助于开发人员快速定位问题、优化系统性能、提升系统安全性。未来，TAAF有望成为下一代追踪分析工具的基础。

📄 摘要（原文）

Execution traces are a critical source of information for understanding, debugging, and optimizing complex software systems. However, traces from OS kernels or large-scale applications like Chrome or MySQL are massive and difficult to analyze. Existing tools rely on predefined analyses, and custom insights often require writing domain-specific scripts, which is an error-prone and time-consuming task. This paper introduces TAAF (Trace Abstraction and Analysis Framework), a novel approach that combines time-indexing, knowledge graphs (KGs), and large language models (LLMs) to transform raw trace data into actionable insights. TAAF constructs a time-indexed KG from trace events to capture relationships among entities such as threads, CPUs, and system resources. An LLM then interprets query-specific subgraphs to answer natural-language questions, reducing the need for manual inspection and deep system expertise. To evaluate TAAF, we introduce TraceQA-100, a benchmark of 100 questions grounded in real kernel traces. Experiments across three LLMs and multiple temporal settings show that TAAF improves answer accuracy by up to 31.2%, particularly in multi-hop and causal reasoning tasks. We further analyze where graph-grounded reasoning helps and where limitations remain, offering a foundation for next-generation trace analysis tools.

TAAF: A Trace Abstraction and Analysis Framework Synergizing Knowledge Graphs and LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册