LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models
作者: Haoyan Gong, Hongbin Liu
分类: cs.CV, cs.AI
发布日期: 2026-01-14
💡 一句话要点
提出LP-LLM,通过大模型端到端解决真实场景下退化车牌识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 车牌识别 大模型 多模态学习 结构化推理 低质量图像识别
📋 核心要点
- 现有车牌识别方法依赖“恢复-识别”两阶段流程,图像恢复的像素级优化与字符识别的语义目标不匹配,易引入伪影。
- 提出LP-LLM,核心是字符感知多模态推理模块(CMRM),通过可学习的字符槽查询,从视觉特征中提取字符位置信息。
- 实验表明,LP-LLM在严重退化数据集上显著优于现有方法和通用VLM,验证了结构化推理融入大模型的有效性。
📝 摘要(中文)
真实场景下的车牌识别(LPR)面临着运动模糊、低分辨率和复杂光照等严重退化带来的挑战。目前主流的“恢复-识别”两阶段范式存在根本缺陷:图像恢复模型的像素级优化目标与字符识别的语义目标不一致,导致伪影干扰和误差累积。虽然视觉-语言模型(VLMs)展现了强大的通用能力,但它们缺乏对车牌字符序列的显式结构建模(例如,固定长度、特定顺序)。为了解决这个问题,我们提出了一个基于Qwen3-VL的端到端结构感知多模态推理框架。核心创新在于字符感知多模态推理模块(CMRM),它引入了一组可学习的字符槽查询。通过交叉注意力机制,这些查询主动从视觉特征中检索与字符位置相对应的细粒度证据。随后,我们通过残差调制将这些字符感知表示注入回视觉tokens中,使语言模型能够基于显式结构先验执行自回归生成。此外,结合LoRA参数高效微调策略,该模型在实现领域自适应的同时,保留了大模型的泛化能力。在合成和真实严重退化数据集上的大量实验表明,我们的方法显著优于现有的恢复-识别组合和通用VLM,验证了将结构化推理融入大模型对于低质量文本识别任务的优越性。
🔬 方法详解
问题定义:论文旨在解决真实场景下,由于运动模糊、低分辨率、复杂光照等因素导致的车牌严重退化问题。现有的“恢复-识别”两阶段方法,图像恢复阶段的优化目标与最终的字符识别任务不一致,容易产生伪影,影响识别精度。此外,通用视觉-语言模型(VLM)缺乏对车牌字符序列结构信息的有效利用,例如字符的固定长度和特定顺序等。
核心思路:论文的核心思路是利用大型多模态模型(LLM)的强大能力,构建一个端到端的车牌识别框架,并显式地融入车牌字符的结构信息。通过可学习的字符槽查询,从视觉特征中提取字符位置信息,并将这些信息注入到语言模型中,引导其进行结构化的自回归生成。
技术框架:LP-LLM框架基于Qwen3-VL构建,主要包含以下模块:1) 图像编码器:提取输入车牌图像的视觉特征。2) 字符感知多模态推理模块(CMRM):包含可学习的字符槽查询,通过交叉注意力机制从视觉特征中提取字符位置信息,并通过残差调制将这些信息注入回视觉tokens。3) 语言模型:基于注入了字符位置信息的视觉tokens,进行自回归生成,预测车牌字符序列。
关键创新:论文的关键创新在于提出了字符感知多模态推理模块(CMRM),它通过可学习的字符槽查询,实现了对车牌字符结构信息的显式建模。与现有方法相比,CMRM能够更有效地从视觉特征中提取字符位置信息,并将其融入到语言模型的推理过程中,从而提高识别精度。此外,端到端的训练方式避免了传统两阶段方法中的误差累积问题。
关键设计:CMRM模块中的字符槽查询数量与车牌字符的长度一致。交叉注意力机制采用多头注意力,以提高特征提取能力。残差调制通过线性变换将字符位置信息映射到与视觉tokens相同的维度,并将其加到视觉tokens上。损失函数采用交叉熵损失,优化模型参数。同时,采用LoRA参数高效微调策略,在领域自适应的同时,保留大模型的泛化能力。
📊 实验亮点
实验结果表明,LP-LLM在合成和真实严重退化数据集上均取得了显著的性能提升。在某真实数据集上,LP-LLM的识别准确率比现有最佳方法提高了超过10%。此外,LP-LLM还优于通用的视觉-语言模型,验证了结构化推理对于低质量文本识别任务的重要性。
🎯 应用场景
该研究成果可广泛应用于智能交通、安防监控等领域。例如,在停车场管理系统中,可以提高车辆进出识别的准确率;在交通执法中,可以辅助识别违章车辆;在智能安防中,可以用于车辆追踪和身份识别。未来,该技术还可以扩展到其他低质量文本识别任务中,例如文档图像识别、手写文本识别等。
📄 摘要(原文)
Real-world License Plate Recognition (LPR) faces significant challenges from severe degradations such as motion blur, low resolution, and complex illumination. The prevailing "restoration-then-recognition" two-stage paradigm suffers from a fundamental flaw: the pixel-level optimization objectives of image restoration models are misaligned with the semantic goals of character recognition, leading to artifact interference and error accumulation. While Vision-Language Models (VLMs) have demonstrated powerful general capabilities, they lack explicit structural modeling for license plate character sequences (e.g., fixed length, specific order). To address this, we propose an end-to-end structure-aware multimodal reasoning framework based on Qwen3-VL. The core innovation lies in the Character-Aware Multimodal Reasoning Module (CMRM), which introduces a set of learnable Character Slot Queries. Through a cross-attention mechanism, these queries actively retrieve fine-grained evidence corresponding to character positions from visual features. Subsequently, we inject these character-aware representations back into the visual tokens via residual modulation, enabling the language model to perform autoregressive generation based on explicit structural priors. Furthermore, combined with the LoRA parameter-efficient fine-tuning strategy, the model achieves domain adaptation while retaining the generalization capabilities of the large model. Extensive experiments on both synthetic and real-world severely degraded datasets demonstrate that our method significantly outperforms existing restoration-recognition combinations and general VLMs, validating the superiority of incorporating structured reasoning into large models for low-quality text recognition tasks.