Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks
作者: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Dong Yu, Meng Jiang
分类: cs.CV, cs.CL
发布日期: 2024-10-02 (更新: 2025-06-06)
备注: Our code is available at https://github.com/tencent-ailab/Leopard
🔗 代码/项目: GITHUB
💡 一句话要点
Leopard:面向富文本多图任务的视觉语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言模型 富文本图像 多图推理 指令调优 高分辨率编码 自适应编码 文档理解
📋 核心要点
- 现有多模态大语言模型在处理富文本多图任务时,面临缺乏高质量数据集和难以平衡图像分辨率与特征序列长度的挑战。
- Leopard通过构建百万级富文本多图指令调优数据集,并提出自适应高分辨率多图编码模块来解决上述问题。
- 实验结果表明,Leopard在多个基准测试中优于Llama-3.2和Qwen2-VL等先进模型,且仅需少量训练数据。
📝 摘要(中文)
本文提出Leopard,一种专为处理涉及多个富文本图像的视觉语言任务而定制的多模态大型语言模型(MLLM)。现有MLLM难以处理此类任务,主要面临两个挑战:(1) 缺乏高质量的富文本多图场景指令调优数据集;(2) 难以平衡图像分辨率与视觉特征序列长度。为解决这些问题,我们构建了约一百万个高质量多模态指令调优数据,专门针对富文本多图场景。此外,我们提出了一种自适应高分辨率多图编码模块,以根据图像的原始宽高比和分辨率动态优化视觉序列长度的分配。在多个基准测试上的实验表明,我们的模型在具有挑战性的富文本多图评估中始终优于最先进的系统,如Llama-3.2和Qwen2-VL。值得注意的是,我们的方法仅使用120万个训练实例就实现了出色的性能,所有这些实例都是完全开源的,与在大型内部数据上训练的模型相比,展示了高效性和有效性。我们的代码和数据可在https://github.com/tencent-ailab/Leopard获取。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在处理富文本多图任务时表现不佳的问题。现有方法难以同时兼顾图像高分辨率和有限的视觉特征序列长度,并且缺乏针对此类任务的高质量训练数据,导致模型无法有效理解和推理多个富文本图像之间的关系和逻辑。
核心思路:论文的核心思路是构建一个专门针对富文本多图任务的MLLM,通过高质量的数据集和自适应的图像编码模块,提升模型在此类任务上的性能。核心在于平衡图像分辨率和视觉特征序列长度,并利用指令调优的方式提升模型对多图关系的理解能力。
技术框架:Leopard的整体框架包含两个主要部分:一是高质量的多模态指令调优数据集,二是自适应高分辨率多图编码模块。该模块首先对输入的多张图像进行预处理,然后根据图像的原始宽高比和分辨率,动态地分配视觉序列长度。最后,将编码后的视觉特征与文本信息一起输入到大型语言模型中进行训练和推理。
关键创新:论文的关键创新在于自适应高分辨率多图编码模块。该模块能够根据图像的特性动态调整视觉序列长度的分配,从而在有限的序列长度下尽可能保留图像的细节信息。这种自适应的编码方式使得模型能够更好地处理高分辨率的富文本图像,并提升了模型对多图关系的理解能力。
关键设计:自适应高分辨率多图编码模块的具体实现细节未知,但可以推测其可能涉及到一些关键设计,例如:(1) 如何根据图像的宽高比和分辨率来确定视觉序列长度的分配比例;(2) 如何在编码过程中保留图像中的关键文本信息;(3) 如何设计损失函数来优化编码模块的性能。此外,高质量数据集的构建也至关重要,需要精心设计指令和答案,以引导模型学习多图之间的关系和逻辑。
🖼️ 关键图片
📊 实验亮点
Leopard在多个富文本多图基准测试中显著优于现有最先进的模型,如Llama-3.2和Qwen2-VL。值得注意的是,Leopard仅使用120万个训练实例就达到了出色的性能,这表明该模型具有很高的数据效率。此外,所有训练数据都是开源的,这有助于促进该领域的研究和发展。
🎯 应用场景
Leopard在多个领域具有广泛的应用前景,例如:演示文稿理解、扫描文档处理、网页快照分析等。该模型可以用于自动提取演示文稿中的关键信息、识别扫描文档中的文本内容、理解网页快照中的布局和语义信息。未来,Leopard有望应用于智能办公、教育、信息检索等领域,提升工作效率和用户体验。
📄 摘要(原文)
Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, an MLLM tailored for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we proposed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of images. Experiments on a diverse set of benchmarks reveal that our model consistently outperforms state-of-the-art systems, such as Llama-3.2 and Qwen2-VL, in challenging text-rich, multi-image evaluations. Remarkably, our approach achieves outstanding performance using only 1.2M training instances, all of which are fully open-sourced, demonstrating both high efficiency and effectiveness compared to models trained on large-scale in-house data. Our code and data are available at https://github.com/tencent-ailab/Leopard.