$G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA
作者: Yaxin Du, Junru Song, Yifan Zhou, Cheng Wang, Jiahao Gu, Zimeng Chen, Menglan Chen, Wen Yao, Yang Yang, Ying Wen, Siheng Chen
分类: cs.CL
发布日期: 2026-01-29
💡 一句话要点
提出G²-Reader双图演化框架,解决多模态文档QA中结构断裂和检索漂移问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态文档问答 图神经网络 检索增强生成 知识图谱 长文档理解
📋 核心要点
- 现有方法在处理多模态文档QA时,扁平分块破坏文档结构和跨模态语义,导致信息孤立。
- G²-Reader通过演化内容图保持文档结构和跨模态语义,利用规划图指导证据搜索,避免检索漂移。
- 实验表明,G²-Reader在VisDoMBench上显著优于现有基线和GPT-5,验证了其有效性。
📝 摘要(中文)
检索增强生成是长文档问答的实用范例,但对于文本、表格和图形交错的多模态阅读仍然脆弱。首先,扁平分块破坏了文档原生结构和跨模态对齐,产生难以单独解释的语义片段。其次,即使是迭代检索也可能因循环于部分证据或漂移到不相关部分而失败,因为每一步仅由当前片段引导,缺乏持续的全局搜索状态。我们引入了G²-Reader,一个双图系统来解决这两个问题。它演化一个内容图来保持文档原生结构和跨模态语义,并维护一个规划图,一个有向无环子问题图,以跟踪中间发现并指导逐步导航以完成证据。在跨五个多模态领域的VisDoMBench上,使用Qwen3-VL-32B-Instruct的G²-Reader达到了66.21%的平均准确率,优于强大的基线和独立的GPT-5 (53.08%)。
🔬 方法详解
问题定义:论文旨在解决多模态文档问答(Multimodal Document QA)中,现有方法在处理长文档时面临的两个主要问题。一是扁平分块(flat chunking)破坏了文档原生的结构和跨模态对齐,导致语义片段化,难以理解。二是迭代检索过程中,容易陷入局部信息循环或漂移到无关信息,无法有效完成证据收集。
核心思路:论文的核心思路是构建一个双图(dual-graph)系统,即G²-Reader,分别维护文档的内容结构和检索规划。内容图(Content Graph)用于保留文档的原生结构和跨模态语义,避免信息割裂。规划图(Planning Graph)则用于跟踪中间发现,指导逐步导航,完成证据收集,避免检索过程中的漂移现象。
技术框架:G²-Reader包含两个主要模块:内容图演化模块和规划图演化模块。内容图演化模块负责构建和更新内容图,该图以文档中的文本、表格、图像等元素为节点,以它们之间的关系为边。规划图演化模块则维护一个有向无环图,每个节点代表一个子问题,边代表子问题之间的依赖关系。系统通过交替更新这两个图,逐步完成对问题的解答。
关键创新:G²-Reader的关键创新在于双图结构的设计。内容图保留了文档的整体结构和跨模态信息,避免了扁平分块带来的信息损失。规划图则模拟了人类逐步探索和解决问题的过程,通过子问题分解和依赖关系建模,有效地指导了检索过程,避免了检索漂移。
关键设计:内容图的构建需要考虑不同模态元素之间的关系,例如文本与表格之间的引用关系,图像与文本的描述关系等。规划图的构建需要设计合理的子问题分解策略和依赖关系建模方法。论文中具体使用的参数设置、损失函数、网络结构等技术细节未知。
🖼️ 关键图片
📊 实验亮点
G²-Reader在VisDoMBench数据集上进行了评估,该数据集涵盖了五个多模态领域。实验结果表明,G²-Reader使用Qwen3-VL-32B-Instruct模型达到了66.21%的平均准确率,显著优于现有的基线方法,包括GPT-5 (53.08%)。这表明G²-Reader在处理多模态文档问答任务方面具有显著优势。
🎯 应用场景
G²-Reader可应用于各种需要处理多模态长文档的场景,例如智能客服、法律文档分析、金融报告解读、医学影像诊断等。通过有效整合文档中的文本、表格和图像信息,G²-Reader可以提供更准确、更全面的问答服务,提高工作效率和决策质量。未来,该技术有望进一步扩展到其他领域,例如教育、科研等。
📄 摘要(原文)
Retrieval-augmented generation is a practical paradigm for question answering over long documents, but it remains brittle for multimodal reading where text, tables, and figures are interleaved across many pages. First, flat chunking breaks document-native structure and cross-modal alignment, yielding semantic fragments that are hard to interpret in isolation. Second, even iterative retrieval can fail in long contexts by looping on partial evidence or drifting into irrelevant sections as noise accumulates, since each step is guided only by the current snippet without a persistent global search state. We introduce $G^2$-Reader, a dual-graph system, to address both issues. It evolves a Content Graph to preserve document-native structure and cross-modal semantics, and maintains a Planning Graph, an agentic directed acyclic graph of sub-questions, to track intermediate findings and guide stepwise navigation for evidence completion. On VisDoMBench across five multimodal domains, $G^2$-Reader with Qwen3-VL-32B-Instruct reaches 66.21\% average accuracy, outperforming strong baselines and a standalone GPT-5 (53.08\%).