LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models

作者: Haoyan Gong, Hongbin Liu

分类: cs.CV, cs.AI

发布日期: 2026-01-14

💡 一句话要点

提出LP-LLM，通过大模型端到端解决真实场景下退化车牌识别问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 车牌识别 大模型 多模态学习 结构化推理 低质量图像识别

📋 核心要点

现有车牌识别方法依赖“恢复-识别”两阶段流程，图像恢复的像素级优化与字符识别的语义目标不匹配，易引入伪影。
提出LP-LLM，核心是字符感知多模态推理模块(CMRM)，通过可学习的字符槽查询，从视觉特征中提取字符位置信息。
实验表明，LP-LLM在严重退化数据集上显著优于现有方法和通用VLM，验证了结构化推理融入大模型的有效性。

📝 摘要（中文）

真实场景下的车牌识别(LPR)面临着运动模糊、低分辨率和复杂光照等严重退化带来的挑战。目前主流的“恢复-识别”两阶段范式存在根本缺陷：图像恢复模型的像素级优化目标与字符识别的语义目标不一致，导致伪影干扰和误差累积。虽然视觉-语言模型(VLMs)展现了强大的通用能力，但它们缺乏对车牌字符序列的显式结构建模(例如，固定长度、特定顺序)。为了解决这个问题，我们提出了一个基于Qwen3-VL的端到端结构感知多模态推理框架。核心创新在于字符感知多模态推理模块(CMRM)，它引入了一组可学习的字符槽查询。通过交叉注意力机制，这些查询主动从视觉特征中检索与字符位置相对应的细粒度证据。随后，我们通过残差调制将这些字符感知表示注入回视觉tokens中，使语言模型能够基于显式结构先验执行自回归生成。此外，结合LoRA参数高效微调策略，该模型在实现领域自适应的同时，保留了大模型的泛化能力。在合成和真实严重退化数据集上的大量实验表明，我们的方法显著优于现有的恢复-识别组合和通用VLM，验证了将结构化推理融入大模型对于低质量文本识别任务的优越性。

🔬 方法详解

问题定义：论文旨在解决真实场景下，由于运动模糊、低分辨率、复杂光照等因素导致的车牌严重退化问题。现有的“恢复-识别”两阶段方法，图像恢复阶段的优化目标与最终的字符识别任务不一致，容易产生伪影，影响识别精度。此外，通用视觉-语言模型(VLM)缺乏对车牌字符序列结构信息的有效利用，例如字符的固定长度和特定顺序等。

核心思路：论文的核心思路是利用大型多模态模型(LLM)的强大能力，构建一个端到端的车牌识别框架，并显式地融入车牌字符的结构信息。通过可学习的字符槽查询，从视觉特征中提取字符位置信息，并将这些信息注入到语言模型中，引导其进行结构化的自回归生成。

技术框架：LP-LLM框架基于Qwen3-VL构建，主要包含以下模块：1) 图像编码器：提取输入车牌图像的视觉特征。2) 字符感知多模态推理模块(CMRM)：包含可学习的字符槽查询，通过交叉注意力机制从视觉特征中提取字符位置信息，并通过残差调制将这些信息注入回视觉tokens。3) 语言模型：基于注入了字符位置信息的视觉tokens，进行自回归生成，预测车牌字符序列。

关键创新：论文的关键创新在于提出了字符感知多模态推理模块(CMRM)，它通过可学习的字符槽查询，实现了对车牌字符结构信息的显式建模。与现有方法相比，CMRM能够更有效地从视觉特征中提取字符位置信息，并将其融入到语言模型的推理过程中，从而提高识别精度。此外，端到端的训练方式避免了传统两阶段方法中的误差累积问题。

关键设计：CMRM模块中的字符槽查询数量与车牌字符的长度一致。交叉注意力机制采用多头注意力，以提高特征提取能力。残差调制通过线性变换将字符位置信息映射到与视觉tokens相同的维度，并将其加到视觉tokens上。损失函数采用交叉熵损失，优化模型参数。同时，采用LoRA参数高效微调策略，在领域自适应的同时，保留大模型的泛化能力。

📊 实验亮点

实验结果表明，LP-LLM在合成和真实严重退化数据集上均取得了显著的性能提升。在某真实数据集上，LP-LLM的识别准确率比现有最佳方法提高了超过10%。此外，LP-LLM还优于通用的视觉-语言模型，验证了结构化推理对于低质量文本识别任务的重要性。

🎯 应用场景

该研究成果可广泛应用于智能交通、安防监控等领域。例如，在停车场管理系统中，可以提高车辆进出识别的准确率；在交通执法中，可以辅助识别违章车辆；在智能安防中，可以用于车辆追踪和身份识别。未来，该技术还可以扩展到其他低质量文本识别任务中，例如文档图像识别、手写文本识别等。

📄 摘要（原文）

Real-world License Plate Recognition (LPR) faces significant challenges from severe degradations such as motion blur, low resolution, and complex illumination. The prevailing "restoration-then-recognition" two-stage paradigm suffers from a fundamental flaw: the pixel-level optimization objectives of image restoration models are misaligned with the semantic goals of character recognition, leading to artifact interference and error accumulation. While Vision-Language Models (VLMs) have demonstrated powerful general capabilities, they lack explicit structural modeling for license plate character sequences (e.g., fixed length, specific order). To address this, we propose an end-to-end structure-aware multimodal reasoning framework based on Qwen3-VL. The core innovation lies in the Character-Aware Multimodal Reasoning Module (CMRM), which introduces a set of learnable Character Slot Queries. Through a cross-attention mechanism, these queries actively retrieve fine-grained evidence corresponding to character positions from visual features. Subsequently, we inject these character-aware representations back into the visual tokens via residual modulation, enabling the language model to perform autoregressive generation based on explicit structural priors. Furthermore, combined with the LoRA parameter-efficient fine-tuning strategy, the model achieves domain adaptation while retaining the generalization capabilities of the large model. Extensive experiments on both synthetic and real-world severely degraded datasets demonstrate that our method significantly outperforms existing restoration-recognition combinations and general VLMs, validating the superiority of incorporating structured reasoning into large models for low-quality text recognition tasks.

LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理