LensVLM: Selective Context Expansion for Compressed Visual Representation of Text
作者: Roy Xie, Dan Friedman, Donghan Yu, Bowen Pan, Christopher Fifty, Jang-Hyun Kim, Xianzhi Du, Zhe Gan, Vivek Rathod, Bhuwan Dhingra
分类: cs.CV, cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出LensVLM框架,通过选择性上下文扩展实现高效的文本视觉压缩与理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 模型压缩 多模态理解 推理优化 文档智能 选择性扩展
📋 核心要点
- 现有VLM在处理渲染文本时,高压缩率会导致字符分辨率不足,造成视觉编码器识别精度显著下降。
- LensVLM引入选择性上下文扩展机制,通过学习到的工具在推理时动态将关键区域恢复为高分辨率图像。
- 实验表明,该方法在10.1倍压缩下仍优于现有基线,且在多模态文档与代码理解任务中表现出极强的鲁棒性。
📝 摘要(中文)
视觉语言模型(VLM)通过将文本渲染为图像处理,避免了长文本序列的标记化问题。由于VLM图像编码器将固定尺寸图像映射为固定数量的视觉Token,渲染分辨率成为一种细粒度的压缩手段。然而,随着压缩率增加,字符尺寸低于编码器有效分辨率,导致识别精度急剧下降。为此,本文提出了LensVLM,这是一种推理框架及后训练方案,允许VLM扫描压缩图像,并通过学习到的工具选择性地将相关区域扩展为未压缩形式。基于Qwen3.5-9B-Base,LensVLM在4.3倍有效压缩下保持了与全文本上限相当的精度,并在七个文本问答基准测试中,在高达10.1倍有效压缩下超越了检索式、文本及视觉压缩基线。研究表明,该方法在多模态文档和代码理解任务中具有良好的泛化能力,且随着压缩率提升,模型对扩展内容的依赖性增强。
🔬 方法详解
问题定义:论文旨在解决VLM处理渲染文本时面临的“压缩-精度”权衡困境。当图像分辨率降低以减少计算开销时,细小的字符特征会丢失,导致模型无法准确识别文本内容。
核心思路:采用“先扫描、后扩展”的策略。模型首先处理低分辨率的全局压缩图像,利用学习到的工具识别出需要精细化处理的区域,仅对这些关键部分进行高分辨率扩展,从而在保持计算效率的同时确保识别准确性。
技术框架:LensVLM基于Qwen3.5-9B-Base构建,包含一个视觉编码器和一个支持工具调用的推理框架。模型在推理过程中,通过特定的Prompt触发工具,将局部图像块(Patch)进行重渲染或放大,随后将扩展后的视觉特征与原始特征融合。
关键创新:引入了选择性上下文扩展机制,将视觉压缩从静态处理转变为动态交互过程。这种方法不仅减少了冗余计算,还通过后训练配方使模型学会了何时以及如何调用扩展工具。
关键设计:论文提出了针对不同任务的工具选择策略:对于纯渲染文本,优先采用文本扩展工具;对于包含布局信息的原生文档,则采用高分辨率图像扩展工具,以保留空间布局特征。
🖼️ 关键图片
📊 实验亮点
LensVLM在七个文本QA基准测试中表现优异,在4.3倍有效压缩下精度与全文本上限持平,在10.1倍压缩下显著超越检索式及视觉压缩基线。分析显示,随着压缩率增加,模型能自适应地增加对扩展内容的依赖,验证了该框架在处理高密度信息时的鲁棒性与有效性。
🎯 应用场景
该研究在文档智能处理、长文档自动化分析、代码库视觉理解及移动端轻量化VLM部署中具有显著价值。通过大幅降低视觉Token数量,LensVLM能够显著提升处理超长文档或复杂网页截图的效率,为资源受限环境下的多模态大模型应用提供了高效的解决方案。
📄 摘要(原文)
Vision Language Models (VLMs) offer the exciting possibility of processing text as rendered images, bypassing the need for tokenizing the text into long token sequences. Since VLM image encoders map fixed-size images to a fixed number of visual tokens, varying rendering resolution provides a fine-grained compression knob. However, accuracy deteriorates quickly as compression increases: characters shrink below the vision encoder's effective resolution, making them indistinguishable. To address this, we propose LensVLM, an inference framework and post-training recipe that enables VLMs to scan compressed images, then selectively expand only the relevant images to their uncompressed form via learned tools. Building on Qwen3.5-9B-Base, LensVLM maintains accuracy comparable to the full-text upper bound at 4.3x effective compression and outperforms retrieval-based, text- and visual-compression baselines up to 10.1x effective compression across seven text QA benchmarks. LensVLM also generalizes to multimodal document and code understanding tasks, with the accuracy gain over baselines growing as compression increases. Our analysis validates this approach: training makes visual compression robust to rendering choices, and as compression grows the model increasingly relies on expanded content rather than unreliable visual reading. The analysis also yields practical tool-choice guidance: text expansion is preferable for rendered text, while high-resolution image expansion suits native documents whose layout cues carry task-relevant information.