Is Cognition Consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding
作者: Zirui Shao, Feiyu Gao, Zhaoqing Zhu, Chuwei Luo, Hangdi Xing, Zhi Yu, Qi Zheng, Ming Yan, Jiajun Bu
分类: cs.AI
发布日期: 2024-11-12 (更新: 2025-11-12)
备注: Accepted at EMNLP 2025
💡 一句话要点
提出多模态知识一致性微调方法,解决文档理解中认知与感知冲突问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 文档理解 知识冲突 认知与感知 大型语言模型
📋 核心要点
- 现有MLLM在文档理解中存在认知与感知冲突,导致模型性能受限且缺乏可解释性。
- 提出多模态知识一致性微调方法,通过强化认知与感知之间的联系来缓解知识冲突。
- 实验表明,该方法能有效降低C&P知识冲突,并提升MLLM在认知和感知任务中的表现。
📝 摘要(中文)
多模态大型语言模型(MLLM)在文档理解方面展现出令人印象深刻的能力,文档理解是一个快速增长且具有重要工业需求的研究领域。作为一个多模态任务,文档理解要求模型同时具备感知和认知能力。然而,由于训练中不同类型的标注噪声,当前的MLLM经常面临感知和认知之间的冲突。以文档VQA任务(认知)为例,MLLM可能生成与其OCR识别的相应视觉内容(感知)不匹配的答案。这种冲突表明MLLM可能难以在其“看到”的信息和其“理解”的信息之间建立内在联系。这种冲突挑战了认知与感知一致的直观概念,阻碍了MLLM的性能和可解释性。在本文中,我们将认知和感知之间的冲突定义为认知与感知(C&P)知识冲突,这是一种多模态知识冲突,并系统地评估它们,重点是文档理解。我们的分析表明,即使是领先的MLLM GPT-4o,也只能达到75.26%的C&P一致性。为了缓解C&P知识冲突,我们提出了一种名为多模态知识一致性微调的新方法。我们的方法减少了所有测试的MLLM中的C&P知识冲突,并提高了它们在认知和感知任务中的性能。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在文档理解任务中存在的认知与感知(Cognition and Perception, C&P)知识冲突问题。现有MLLM在训练过程中由于标注噪声等因素,导致模型对文档的“理解”(认知)与其“看到”的内容(感知,例如OCR识别结果)不一致,从而影响了模型的性能和可解释性。这种不一致性表现为模型生成的答案与文档的视觉内容不匹配。
核心思路:论文的核心思路是通过微调的方式,强化MLLM在认知和感知之间建立内在联系的能力,从而缓解C&P知识冲突。具体来说,通过设计特定的训练目标和数据,引导模型学习如何将视觉信息与文本信息进行有效融合,并确保模型的认知输出与感知输入保持一致。
技术框架:论文提出的多模态知识一致性微调方法主要包含以下几个阶段:1)定义C&P知识冲突:明确认知和感知在文档理解任务中的具体体现,例如文档VQA任务中答案与OCR识别结果的匹配程度。2)构建训练数据:设计包含认知和感知信息的训练样本,例如包含文档图像、OCR文本和对应问题的答案。3)微调MLLM:使用构建的训练数据,通过特定的损失函数,对MLLM进行微调,以提高其C&P一致性。4)评估模型性能:使用特定的指标评估模型在认知和感知任务中的性能,以及C&P一致性。
关键创新:论文的关键创新在于:1)明确定义了文档理解中的C&P知识冲突,并提出了系统的评估方法。2)提出了一种多模态知识一致性微调方法,通过强化认知与感知之间的联系来缓解知识冲突。3)实验证明,该方法能有效提升MLLM在文档理解任务中的性能和可解释性。与现有方法相比,该方法更加关注认知与感知之间的一致性,从而能够更好地利用多模态信息。
关键设计:论文的关键设计包括:1)损失函数的设计:需要设计合适的损失函数,以衡量模型认知输出与感知输入之间的一致性。例如,可以使用交叉熵损失函数来衡量模型生成的答案与正确答案之间的差异,并使用额外的损失函数来衡量模型生成的答案与OCR识别结果之间的匹配程度。2)训练数据的构建:需要构建包含认知和感知信息的训练样本,并确保这些样本具有足够的代表性和多样性。例如,可以使用人工标注或自动生成的方式来构建训练数据,并对数据进行清洗和过滤,以去除噪声和错误。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的多模态知识一致性微调方法能够有效降低MLLM中的C&P知识冲突。例如,在文档VQA任务中,该方法可以将GPT-4o的C&P一致性从75.26%提升到更高的水平。此外,该方法还能提升MLLM在认知和感知任务中的性能,例如提高文档VQA的准确率和OCR识别的精度。
🎯 应用场景
该研究成果可广泛应用于文档智能领域,例如智能文档分析、自动表单填写、智能合同审核等。通过提高MLLM的认知与感知一致性,可以提升文档理解系统的准确性和可靠性,从而提高工作效率,降低人工成本。未来,该研究还可以扩展到其他多模态任务中,例如图像描述、视频理解等。
📄 摘要(原文)
Multimodal large language models (MLLMs) have shown impressive capabilities in document understanding, a rapidly growing research area with significant industrial demand. As a multimodal task, document understanding requires models to possess both perceptual and cognitive abilities. However, due to different types of annotation noise in training, current MLLMs often face conflicts between perception and cognition. Taking a document VQA task (cognition) as an example, an MLLM might generate answers that do not match the corresponding visual content identified by its OCR (perception). This conflict suggests that the MLLM might struggle to establish an intrinsic connection between the information it "sees" and what it "understands". Such conflicts challenge the intuitive notion that cognition is consistent with perception, hindering the performance and explainability of MLLMs. In this paper, we define the conflicts between cognition and perception as Cognition and Perception (C&P) knowledge conflicts, a form of multimodal knowledge conflict, and systematically assess them with a focus on document understanding. Our analysis reveals that even GPT-4o, a leading MLLM, achieves only 75.26% C&P consistency. To mitigate the C&P knowledge conflicts, we propose a novel method called Multimodal Knowledge Consistency Fine-tuning. Our method reduces C&P knowledge conflicts across all tested MLLMs and enhances their performance in both cognitive and perceptual tasks.