Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR
作者: Ziye Yuan, Ruchang Yao, Chengxin Zheng, Yusheng Zhao, Daxiang Dong, Ming Zhang
分类: cs.CV, cs.AI
发布日期: 2026-03-20
💡 一句话要点
提出解耦跳跃连接和R-Probe,提升MLLM在OCR任务中的细粒度识别能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 OCR 梯度解耦 跳跃连接 特征融合 视觉语言模型 细粒度识别
📋 核心要点
- MLLM在OCR任务中表现不佳,主要原因是多层特征融合中的梯度干扰破坏了低层视觉信号。
- 提出解耦跳跃连接,在正向传播中重用浅层特征,反向传播时阻断跳跃分支的梯度,减少梯度干扰。
- 引入R-Probe诊断细粒度信息是否被保留,实验表明该方法在OCR和通用多模态任务中均有提升。
📝 摘要(中文)
多模态大型语言模型(MLLM)擅长高层次推理,但在OCR任务中表现不佳,因为细粒度的视觉细节容易丢失或错位。我们发现多层特征融合中存在一个被忽视的优化问题:跳跃连接引入了从高层语义目标到早期视觉层的直接反向传播路径,这种机制会覆盖低层信号并破坏训练稳定性。为了缓解这种梯度干扰,我们提出了解耦跳跃连接(Detached Skip-Links),这是一种最小的修改,它在正向传播中重用浅层特征,同时在联合训练期间阻止梯度通过跳跃分支。这种非对称设计减少了梯度干扰,提高了稳定性和收敛性,而无需添加可学习的参数。为了诊断细粒度信息是否被保留并可供LLM使用,我们引入了$R$-Probe,它使用从LLM层的前四分之一初始化的浅层解码器来测量投影视觉token的像素级可重构性。在多个ViT骨干网络和多模态基准测试中,以及高达700万个训练样本的规模下,我们的方法始终改进了以OCR为中心的基准测试,并在通用多模态任务中提供了明显的收益。
🔬 方法详解
问题定义:MLLM在OCR任务中,由于多层特征融合时跳跃连接引入的梯度干扰,导致低层视觉特征被高层语义目标覆盖,从而影响了细粒度信息的提取和识别。现有方法难以有效解决这种梯度干扰问题,导致OCR性能下降。
核心思路:核心在于解耦特征聚合和梯度传播。通过在跳跃连接中阻断反向传播的梯度,只允许浅层特征在前向传播中被高层特征利用,从而避免高层语义目标对低层视觉特征的过度干预。这种非对称设计既能利用浅层特征,又能保持低层特征的独立性。
技术框架:整体框架仍然是基于MLLM的视觉-语言模型,主要改进在于特征融合部分。具体来说,在ViT等视觉编码器提取的浅层特征与深层特征之间建立跳跃连接,但该连接在反向传播时被“解耦”,即梯度无法通过该连接传播。此外,引入R-Probe模块,用于评估视觉token所包含的细粒度信息。
关键创新:最重要的创新点在于解耦跳跃连接的设计,它通过阻断跳跃连接的反向梯度传播,有效缓解了梯度干扰问题,从而提高了MLLM在OCR任务中的性能。与现有方法的本质区别在于,现有方法通常直接融合特征,而该方法则通过解耦操作,实现了更精细的特征控制。
关键设计:解耦跳跃连接的具体实现方式是在跳跃连接处使用梯度停止操作,例如PyTorch中的.detach()。R-Probe模块是一个浅层解码器,其结构与LLM的前四分之一层相同,用于重建视觉token的像素级信息。损失函数包括OCR任务的损失和R-Probe的重建损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个OCR基准测试中取得了显著的性能提升。例如,在特定数据集上,该方法相比基线模型提升了超过5个百分点。此外,该方法还在通用多模态任务中表现出良好的泛化能力,证明了其有效性和通用性。
🎯 应用场景
该研究成果可广泛应用于文档识别、图像文字提取、自动驾驶中的交通标志识别、以及工业自动化中的零件检测等领域。通过提升MLLM对细粒度视觉信息的处理能力,可以提高相关应用的准确性和可靠性,具有重要的实际应用价值和商业前景。
📄 摘要(原文)
Multimodal large language models (MLLMs) excel at high-level reasoning yet fail on OCR tasks where fine-grained visual details are compromised or misaligned. We identify an overlooked optimization issue in multi-layer feature fusion. Skip pathways introduce direct back-propagation paths from high-level semantic objectives to early visual layers. This mechanism overwrites low-level signals and destabilizes training. To mitigate this gradient interference, we propose Detached Skip-Links, a minimal modification that reuses shallow features in the forward pass while stopping gradients through the skip branch during joint training. This asymmetric design reduces gradient interference, improving stability and convergence without adding learnable parameters. To diagnose whether fine-grained information is preserved and usable by an LLM, we introduce $R$-Probe, which measures pixel-level reconstructability of projected visual tokens using a shallow decoder initialized from the first quarter of the LLM layers. Across multiple ViT backbones and multimodal benchmarks, and at scales up to 7M training samples, our approach consistently improves OCR-centric benchmarks and delivers clear gains on general multimodal tasks.