Visual Graph Question Answering with ASP and LLMs for Language Parsing

📄 arXiv: 2502.09211v1 📥 PDF

作者: Jakob Johannes Bauer, Thomas Eiter, Nelson Higuera Ruiz, Johannes Oetsch

分类: cs.AI, cs.CV, cs.LO

发布日期: 2025-02-13

备注: In Proceedings ICLP 2024, arXiv:2502.08453. This work was partially funded from the Bosch Center for AI

期刊: EPTCS 416, 2025, pp. 15-28

DOI: 10.4204/EPTCS.416.2


💡 一句话要点

提出结合ASP和LLM的VQA方法,解决图结构图像的问答任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 图结构图像 答案集编程 大型语言模型 神经符号计算

📋 核心要点

  1. 现有VQA方法在处理图结构图像时,缺乏足够的模块化设计和可解释性,难以有效推理。
  2. 论文提出一种神经符号方法,结合光学图识别、OCR、LLM和ASP,实现对图结构图像的理解和推理。
  3. 实验结果表明,该方法在新的图结构图像VQA数据集上取得了73%的平均准确率,验证了其有效性。

📝 摘要(中文)

本文提出了一种结合答案集编程(ASP)和大型语言模型(LLM)的视觉问答(VQA)方法,用于处理包含图结构图像的复杂问题。现有的VQA方法难以解释和缺乏模块化,而ASP在模块化VQA架构中具有潜力,可以增加可解释性和可解释性。本文针对一种新的VQA变体,即基于图的图像(非符号形式的图),提出解决方案。该方法结合了光学图识别进行图解析、预训练的光学字符识别神经网络进行标签解析、大型语言模型进行语言处理以及ASP进行推理。该方法作为基线,在数据集上实现了73%的平均准确率。评估结果进一步证明了模块化神经符号系统的潜力,特别是使用无需额外训练的预训练模型和逻辑编程进行推理,可以解决复杂的VQA任务。

🔬 方法详解

问题定义:论文旨在解决视觉问答(VQA)任务中,针对图像中呈现的图结构(例如地铁线路图)进行提问和回答的问题。现有方法在处理此类问题时,通常缺乏足够的结构化推理能力,难以准确理解图的拓扑关系和语义信息,并且可解释性较差。

核心思路:论文的核心思路是将视觉信息处理、自然语言理解和逻辑推理相结合,构建一个模块化的神经符号系统。通过光学图识别(OGR)提取图结构,利用光学字符识别(OCR)识别图中的文本标签,使用大型语言模型(LLM)理解问题,最后使用答案集编程(ASP)进行逻辑推理,从而得到答案。

技术框架:整体框架包含以下几个主要模块:1) 光学图识别(OGR)模块:负责从图像中提取图的节点和边信息。2) 光学字符识别(OCR)模块:负责识别图中节点和边的文本标签。3) 大型语言模型(LLM)模块:负责解析自然语言问题,提取问题中的关键信息和约束条件。4) 答案集编程(ASP)模块:负责将提取的图结构、文本标签和问题信息转换为逻辑规则,并进行推理,最终生成答案。

关键创新:论文的关键创新在于将深度学习模型(OGR、OCR、LLM)与符号推理方法(ASP)相结合,构建了一个可解释的VQA系统。这种结合方式既利用了深度学习模型强大的感知能力,又利用了符号推理方法的逻辑推理能力,从而提高了VQA系统的准确性和可解释性。

关键设计:OGR模块和OCR模块使用了预训练的神经网络,无需额外训练。LLM模块用于解析问题,提取关键信息。ASP模块使用clingo求解器进行推理,将图结构、文本标签和问题信息编码为ASP规则。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在作者提出的新的图结构图像VQA数据集上取得了73%的平均准确率,证明了该方法的有效性。该方法无需对预训练的视觉和语言模型进行额外的训练,降低了训练成本。通过ASP进行推理,提高了VQA系统的可解释性。

🎯 应用场景

该研究成果可应用于智能交通、城市规划、信息可视化等领域。例如,可以构建智能地铁线路查询系统,用户可以通过提问的方式,快速获取地铁线路信息。此外,该方法还可以应用于其他类型的图结构图像,例如电路图、流程图等,具有广泛的应用前景。

📄 摘要(原文)

Visual Question Answering (VQA) is a challenging problem that requires to process multimodal input. Answer-Set Programming (ASP) has shown great potential in this regard to add interpretability and explainability to modular VQA architectures. In this work, we address the problem of how to integrate ASP with modules for vision and natural language processing to solve a new and demanding VQA variant that is concerned with images of graphs (not graphs in symbolic form). Images containing graph-based structures are an ubiquitous and popular form of visualisation. Here, we deal with the particular problem of graphs inspired by transit networks, and we introduce a novel dataset that amends an existing one by adding images of graphs that resemble metro lines. Our modular neuro-symbolic approach combines optical graph recognition for graph parsing, a pretrained optical character recognition neural network for parsing labels, Large Language Models (LLMs) for language processing, and ASP for reasoning. This method serves as a first baseline and achieves an overall average accuracy of 73% on the dataset. Our evaluation provides further evidence of the potential of modular neuro-symbolic systems, in particular with pretrained models that do not involve any further training and logic programming for reasoning, to solve complex VQA tasks.