JFTA-Bench: Evaluate LLM's Ability of Tracking and Analyzing Malfunctions Using Fault Trees
作者: Yuhui Wang, Zhixiong Yang, Ming Zhang, Shihan Dou, Zhiheng Xi, Enyu Zhou, Senjie Jin, Yujiong Shen, Dingwei Zhu, Yi Dong, Tao Gui, Qi Zhang, Xuanjing Huang
分类: cs.AI
发布日期: 2026-03-24
💡 一句话要点
JFTA-Bench:提出故障树文本表示,评估大语言模型在故障追踪与分析中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 故障树 大语言模型 多轮对话 基准测试 故障诊断 文本表示 错误恢复
📋 核心要点
- 复杂系统的维护依赖故障树定位问题并提供解决方案,但现有方法难以直接处理图像格式的故障树。
- 论文提出故障树的文本表示方法,使大语言模型能够直接处理故障树图像,辅助故障追踪与分析。
- 构建了包含3130个条目的多轮对话基准测试JFTA-Bench,用于评估模型在复杂环境下的故障定位能力,Gemini 2.5 Pro表现最佳。
📝 摘要(中文)
为了使存储为图像的故障树能够被大语言模型直接处理,从而辅助故障追踪和分析,本文提出了一种新颖的故障树文本表示方法。在此基础上,我们构建了一个多轮对话系统的基准测试,该基准测试强调复杂环境中鲁棒的交互,评估模型在故障定位方面的辅助能力,包含3130个条目,平均每个条目40.75轮对话。我们训练了一个端到端模型来生成模糊信息以反映用户行为,并引入长程回滚和恢复程序来模拟用户错误场景,从而评估模型在任务跟踪和错误恢复方面的综合能力,其中Gemini 2.5 Pro取得了最佳性能。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)难以直接处理图像格式故障树的问题。现有方法需要人工转换故障树,效率低下且容易出错。因此,如何让LLM能够自动理解和分析故障树,辅助复杂系统的故障诊断和维护,是本文要解决的核心问题。现有方法的痛点在于缺乏有效的故障树表示方法以及相应的评测基准。
核心思路:论文的核心思路是提出一种故障树的文本表示方法,将图像格式的故障树转换为LLM能够理解的文本格式。通过这种转换,LLM可以直接利用其强大的自然语言处理能力,进行故障分析、定位和诊断。同时,构建一个多轮对话基准测试,模拟真实场景下的用户交互,全面评估LLM在故障追踪和分析方面的能力。
技术框架:整体框架包含以下几个主要部分:1) 故障树文本表示:设计一种文本格式来表示故障树的结构和信息。2) 基准测试构建:构建一个包含多轮对话的基准测试JFTA-Bench,用于评估LLM的故障追踪和分析能力。该基准测试包含用户行为模拟(生成模糊信息)和用户错误场景模拟(引入长程回滚和恢复程序)。3) 模型训练与评估:训练一个端到端模型,并使用JFTA-Bench进行评估。
关键创新:论文的关键创新在于:1) 提出了一种新颖的故障树文本表示方法,使得LLM能够直接处理图像格式的故障树。2) 构建了一个多轮对话基准测试JFTA-Bench,该基准测试强调复杂环境中的鲁棒交互,并模拟了用户行为和错误场景,更贴近实际应用。3) 引入长程回滚和恢复程序,评估模型在错误恢复方面的能力,这是现有方法所缺乏的。
关键设计:在基准测试构建方面,论文设计了生成模糊信息的机制来模拟用户行为,例如,用户可能无法提供精确的故障描述。此外,引入长程回滚和恢复程序来模拟用户错误,例如,用户可能在诊断过程中提供错误的信息。这些设计使得基准测试更具挑战性和实用性。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在JFTA-Bench基准测试中,Gemini 2.5 Pro取得了最佳性能,验证了该方法的有效性。通过模拟用户行为和错误场景,该基准测试能够全面评估模型在故障追踪、分析和错误恢复方面的能力。具体的性能数据和提升幅度在论文中未详细给出,属于未知信息。
🎯 应用场景
该研究成果可应用于复杂系统的故障诊断与维护,例如航空航天、电力系统、交通运输等领域。通过利用大语言模型自动分析故障树,可以提高故障诊断的效率和准确性,降低维护成本,保障系统安全运行。未来,该方法有望与知识图谱等技术结合,实现更智能化的故障诊断和预测。
📄 摘要(原文)
In the maintenance of complex systems, fault trees are used to locate problems and provide targeted solutions. To enable fault trees stored as images to be directly processed by large language models, which can assist in tracking and analyzing malfunctions, we propose a novel textual representation of fault trees. Building on it, we construct a benchmark for multi-turn dialogue systems that emphasizes robust interaction in complex environments, evaluating a model's ability to assist in malfunction localization, which contains $3130$ entries and $40.75$ turns per entry on average. We train an end-to-end model to generate vague information to reflect user behavior and introduce long-range rollback and recovery procedures to simulate user error scenarios, enabling assessment of a model's integrated capabilities in task tracking and error recovery, and Gemini 2.5 pro archives the best performance.