Evaluating Assurance Cases as Text-Attributed Graphs for Structure and Provenance Analysis
作者: Fariz Ikhwantri, Dusica Marijan
分类: cs.SE, cs.LG
发布日期: 2026-04-22
备注: 10 pages, 4 figures, 8 tables. Accepted to EASE 2026 AI Models / Data track, Glasgow, United Kingdom
💡 一句话要点
提出基于图诊断框架的保证案例结构与溯源分析方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 保证案例 图神经网络 链接预测 图分类 溯源分析 大型语言模型 结构化论证
📋 核心要点
- 现有保证案例分析方法缺乏对结构和溯源的深入理解,难以有效识别潜在问题和偏差。
- 提出将保证案例表示为文本属性图,利用图神经网络进行链接预测和图分类,从而分析结构和溯源。
- 实验表明,该方法在链接预测和区分人工与LLM生成案例方面表现出色,但GNN解释性仍有提升空间。
📝 摘要(中文)
保证案例是一种结构化的论证文档,用于证明系统需求或属性的合理性,并由证据支持。在受监管的领域,保证案例对于满足行业标准的合规性和安全要求至关重要。本文提出了一种图诊断框架,用于分析保证案例的结构和溯源。研究重点在于两个主要任务:(1)链接预测,学习和识别论证元素之间的连接;(2)图分类,区分由先进的大型语言模型(LLM)创建的保证案例和人工创建的保证案例,旨在检测偏差。作者构建了一个公开可用的保证案例数据集,表示为具有节点和边的图,支持链接预测和溯源分析。实验表明,图神经网络(GNN)在真实保证案例上实现了强大的链接预测性能(ROC-AUC 0.760),并在跨领域和半监督设置中表现出良好的泛化能力。对于溯源检测,GNN有效地将人工编写的案例与LLM生成的案例区分开来(F1 0.94)。观察到LLM生成的保证案例与人工编写的案例相比,具有不同的分层链接模式。此外,现有的GNN解释方法仅显示出适度的忠实度,揭示了预测推理与真实论证结构之间的差距。
🔬 方法详解
问题定义:论文旨在解决保证案例的结构分析和溯源问题。现有方法难以有效识别论证元素之间的连接,以及区分人工编写和LLM生成的保证案例,从而无法有效检测潜在的偏差和错误。
核心思路:论文的核心思路是将保证案例表示为图结构,其中节点代表论证元素,边代表元素之间的关系。然后,利用图神经网络(GNN)学习图的结构特征,从而进行链接预测和图分类。这种方法能够有效地捕捉保证案例的结构信息和溯源信息。
技术框架:该框架包含以下主要步骤:1) 将保证案例转换为图结构,节点包含文本属性;2) 使用图神经网络(GNN)学习图的节点和边的表示;3) 利用学习到的表示进行链接预测,即预测图中节点之间是否存在连接;4) 利用学习到的表示进行图分类,即区分人工编写和LLM生成的保证案例。
关键创新:该论文的关键创新在于将图神经网络应用于保证案例的结构和溯源分析。与传统方法相比,GNN能够更好地捕捉保证案例的结构信息和元素之间的关系,从而提高链接预测和图分类的性能。此外,该研究还探讨了GNN解释方法在保证案例分析中的应用,并发现了现有方法的局限性。
关键设计:论文使用了多种GNN模型,包括GCN、GAT等。对于链接预测任务,使用了二元交叉熵损失函数。对于图分类任务,使用了交叉熵损失函数。实验中,使用了ROC-AUC和F1-score等指标评估模型的性能。此外,论文还探讨了不同GNN解释方法(如GNNExplainer)的忠实度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GNN在真实保证案例上实现了强大的链接预测性能(ROC-AUC 0.760),并在跨领域和半监督设置中表现出良好的泛化能力。对于溯源检测,GNN有效地将人工编写的案例与LLM生成的案例区分开来(F1 0.94)。这些结果表明,GNN在保证案例分析中具有很大的潜力。
🎯 应用场景
该研究成果可应用于自动化保证案例的审查和验证,提高保证案例的质量和可靠性。此外,该方法还可以用于检测LLM生成的保证案例中的潜在偏差,确保AI系统在安全关键领域的应用符合伦理和安全标准。未来,该研究可扩展到其他类型的结构化论证文档分析。
📄 摘要(原文)
An assurance case is a structured argument document that justifies claims about a system's requirements or properties, which are supported by evidence. In regulated domains, these are crucial for meeting compliance and safety requirements to industry standards. We propose a graph diagnostic framework for analysing the structure and provenance of assurance cases. We focus on two main tasks: (1) link prediction, to learn and identify connections between argument elements, and (2) graph classification, to differentiate between assurance cases created by a state-of-the-art large language model and those created by humans, aiming to detect bias. We compiled a publicly available dataset of assurance cases, represented as graphs with nodes and edges, supporting both link prediction and provenance analysis. Experiments show that graph neural networks (GNNs) achieve strong link prediction performance (ROC-AUC 0.760) on real assurance cases and generalise well across domains and semi-supervised settings. For provenance detection, GNNs effectively distinguish human-authored from LLM-generated cases (F1 0.94). We observed that LLM-generated assurance cases have different hierarchical linking patterns compared to human-authored cases. Furthermore, existing GNN explanation methods show only moderate faithfulness, revealing a gap between predicted reasoning and the true argument structure.