DocSLM: A Small Vision-Language Model for Long Multimodal Document Understanding
作者: Tanveer Hannan, Dimitrios Mallios, Parth Pathak, Faegheh Sardari, Thomas Seidl, Gedas Bertasius, Mohsen Fayyaz, Sunando Sengupta
分类: cs.CV
发布日期: 2025-11-14 (更新: 2025-11-21)
🔗 代码/项目: GITHUB
💡 一句话要点
提出DocSLM,一种面向资源受限边缘设备的长文档理解小规模视觉语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文档理解 视觉语言模型 多模态压缩 边缘计算 资源受限 流式处理 不确定性校准
📋 核心要点
- 现有大型视觉语言模型内存占用高,难以在资源受限的边缘设备上部署,限制了其应用。
- DocSLM通过分层多模态压缩器和流式放弃机制,在降低内存消耗的同时,保持了长文档的语义信息。
- 实验表明,DocSLM在多个长文档基准测试中,性能与SOTA方法相当,同时显著降低了计算成本。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在长而复杂的文档上展示了强大的多模态推理能力。然而,它们的高内存占用使得在资源受限的边缘设备上部署变得不切实际。我们提出了DocSLM,一种高效的小型视觉语言模型,专为受限内存资源下的长文档理解而设计。DocSLM包含一个分层多模态压缩器,它将来自每个页面的视觉、文本和布局信息联合编码成固定长度的序列,大大降低了内存消耗,同时保留了局部和全局语义。为了实现对任意长度输入的扩展处理,我们引入了一种流式放弃机制,该机制按顺序处理文档片段,并使用基于熵的不确定性校准器过滤低置信度的响应。在多个长多模态文档基准测试中,DocSLM在视觉token减少82%、参数减少75%和延迟降低71%的情况下,匹配或超过了最先进的方法,从而在轻量级边缘设备上实现了可靠的多模态文档理解。代码和模型可在https://github.com/Tanveer81/DocSLM.git获取。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)在长文档理解任务中内存占用过高,难以部署在资源受限的边缘设备上的问题。现有方法通常需要大量的计算资源和内存,限制了其在实际应用中的可行性。
核心思路:DocSLM的核心思路是通过分层多模态压缩器来降低视觉、文本和布局信息的维度,从而减少内存占用。同时,采用流式放弃机制来处理任意长度的文档,并过滤掉低置信度的响应,提高模型的效率和准确性。
技术框架:DocSLM的整体框架包含两个主要模块:1) 分层多模态压缩器:该模块将文档的每一页的视觉、文本和布局信息编码成固定长度的序列,从而降低内存消耗。2) 流式放弃机制:该模块按顺序处理文档片段,并使用基于熵的不确定性校准器过滤低置信度的响应。整个流程是,首先使用分层多模态压缩器对文档进行编码,然后使用流式放弃机制进行推理,最终得到文档理解的结果。
关键创新:DocSLM的关键创新在于其分层多模态压缩器和流式放弃机制的结合。分层多模态压缩器能够有效地降低内存占用,而流式放弃机制能够处理任意长度的文档,并提高模型的效率和准确性。与现有方法相比,DocSLM能够在保持甚至提高性能的同时,显著降低计算成本。
关键设计:分层多模态压缩器使用视觉Transformer提取视觉特征,使用文本Transformer提取文本特征,并使用布局信息来融合视觉和文本特征。流式放弃机制使用基于熵的不确定性校准器来判断响应的置信度,并根据置信度来决定是否放弃该响应。具体的参数设置和网络结构在论文中有详细描述,例如,视觉Transformer和文本Transformer的层数、隐藏层维度等。
🖼️ 关键图片
📊 实验亮点
DocSLM在多个长多模态文档基准测试中,在视觉token减少82%、参数减少75%和延迟降低71%的情况下,匹配或超过了最先进的方法。这表明DocSLM能够在显著降低计算成本的同时,保持甚至提高性能,使其更适合在资源受限的边缘设备上部署。
🎯 应用场景
DocSLM可应用于移动设备上的文档处理、智能助手、自动文档摘要、信息检索等领域。其低内存占用和高效率使其能够在资源受限的环境下提供可靠的多模态文档理解能力,例如在移动设备上进行文档扫描和信息提取,或者在智能家居设备上进行文档管理。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) have demonstrated strong multimodal reasoning capabilities on long and complex documents. However, their high memory footprint makes them impractical for deployment on resource-constrained edge devices. We present DocSLM, an efficient Small Vision-Language Model designed for long-document understanding under constrained memory resources. DocSLM incorporates a Hierarchical Multimodal Compressor that jointly encodes visual, textual, and layout information from each page into a fixed-length sequence, greatly reducing memory consumption while preserving both local and global semantics. To enable scalable processing over arbitrarily long inputs, we introduce a Streaming Abstention mechanism that operates on document segments sequentially and filters low-confidence responses using an entropy-based uncertainty calibrator. Across multiple long multimodal document benchmarks, DocSLM matches or surpasses state-of-the-art methods while using 82\% fewer visual tokens, 75\% fewer parameters, and 71\% lower latency, delivering reliable multimodal document understanding on lightweight edge devices. Code and Model are available in https://github.com/Tanveer81/DocSLM.git.