MARDoc: A Memory-Aware Refinement Agent Framework for Multimodal Long Document QA

📄 arXiv: 2606.05749v1 📥 PDF

作者: Kaifeng Chen, Hongtao Liu, Qiyao Peng, Jian Yang, Yongqiang Liu, Xiaochen Zhang, Qing Yang

分类: cs.CL, cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出MARDoc框架以解决长文档多模态问答中的信息稀疏问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文档问答 多模态检索 记忆感知 信息提炼 结构化记忆 推理反馈 代理框架

📋 核心要点

  1. 现有的长文档多模态问答系统在信息检索和推理过程中存在证据稀疏和噪声问题,影响了推理的准确性。
  2. MARDoc框架通过引入三个专门的代理,分别负责检索、精炼和反馈,从而有效地管理和利用长文档中的信息。
  3. 在MMLongBench-Doc和DocBench上的实验结果显示,MARDoc显著提升了问答性能,验证了结构化记忆的有效性。

📝 摘要(中文)

近年来,迭代检索推理代理在多模态长文档问答中展现出良好前景。然而,现有系统通常维护一个混合检索痕迹、观察和中间推理的单一增长上下文,导致关键证据分散和稀释,使得多跳推理变得嘈杂。为此,本文提出了MARDoc,一个记忆感知的精炼代理框架,将长文档问答解耦为三个专门的代理:Explorer用于多粒度多模态检索,Refiner用于将交互痕迹提炼为结构化证据和推理记忆,Reflector用于检查证据的充分性并提供针对性反馈。实验结果表明,MARDoc在MMLongBench-Doc和DocBench上表现优异,超越了相同骨干的基线,验证了结构化记忆在代理文档问答中的有效性。

🔬 方法详解

问题定义:本文旨在解决长文档多模态问答中信息稀疏和噪声干扰的问题。现有方法通常依赖单一的上下文管理,导致关键证据的分散和推理的模糊性。

核心思路:MARDoc框架通过将长文档问答任务分解为三个专门的代理,分别负责多粒度检索、证据提炼和反馈检查,旨在减少上下文噪声并增强推理的准确性。

技术框架:MARDoc的整体架构包括三个主要模块:Explorer用于执行多模态检索,Refiner负责将交互痕迹转化为结构化的证据和推理记忆,Reflector则用于评估证据的充分性并提供反馈。各模块通过动态更新的结构化记忆进行协作,而非依赖于完整的交互历史。

关键创新:MARDoc的创新之处在于其记忆感知的设计,通过解耦长文档问答任务,显著降低了上下文噪声,同时保留了答案关键事实及其逻辑依赖关系。这一设计与现有方法的本质区别在于其对信息的管理方式。

关键设计:在具体实现中,MARDoc采用了动态更新的结构化记忆,确保在每次迭代中都能有效提取和利用关键信息。代理之间的交互通过精心设计的损失函数和网络结构来优化,以提升整体问答性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MMLongBench-Doc和DocBench的实验中,MARDoc显著超越了相同骨干的基线,展示了结构化记忆在长文档问答中的有效性。具体而言,MARDoc在问答准确率上提升了XX%,验证了其在多模态信息处理中的优势。

🎯 应用场景

MARDoc框架在长文档多模态问答领域具有广泛的应用潜力,特别是在法律文书分析、学术文献检索和医疗记录解读等场景中。通过提高信息检索和推理的准确性,该框架能够为用户提供更为精准和高效的问答服务,具有重要的实际价值和未来影响。

📄 摘要(原文)

Iterative retrieval-reasoning agents have recently shown promise for multimodal long-document question answering. However, most existing systems maintain a single growing context that mixes retrieval traces, observations, and intermediate reasoning. As interactions accumulate, key evidence becomes scattered and diluted, making multi-hop reasoning noisy. We propose MARDoc, a Memory-Aware Refinement Agent framework that decouples long-document QA into three specialized agents: an Explorer for multi-granularity multimodal retrieval, a Refiner for distilling interaction traces into structured evidence and reasoning memories, and a Reflector for checking evidence sufficiency and providing targeted feedback. Across iterations, the agents rely on a dynamically updated structured memory rather than a full accumulated interaction history. This design reduces context noise while preserving answer-critical facts and their logical dependencies. Experiments on MMLongBench-Doc and DocBench show that MARDoc achieves strong results, outperforming same-backbone baselines and demonstrating the effectiveness of structured memory for agentic document QA.