Rotation-free Online Handwritten Character Recognition Using Linear Recurrent Units
作者: Zhe Ling, Sicheng Yu, Danyu Yang
分类: cs.CV, cs.LG
发布日期: 2026-02-02
💡 一句话要点
提出基于SW-PS和LRU的无旋转在线手写字符识别框架,提升旋转鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 在线手写字符识别 旋转不变性 滑动窗口路径签名 线性循环单元 序列建模
📋 核心要点
- 在线手写识别受旋转影响大,提取旋转不变特征是挑战。
- 利用滑动窗口路径签名(SW-PS)提取局部特征,线性循环单元(LRU)进行分类。
- 在旋转数据集上,SW-PS+LRU框架在精度和收敛速度上优于其他模型。
📝 摘要(中文)
在线手写字符识别利用笔画顺序和动态特征,通常比离线识别具有更高的准确性和鲁棒性。然而,在实际应用中,旋转变形会扰乱笔画的空间布局,从而显著降低识别准确率。因此,提取旋转不变特征仍然是一个具有挑战性的开放问题。本文采用滑动窗口路径签名(SW-PS)来捕获字符的局部结构特征,并引入轻量级线性循环单元(LRU)作为分类器。LRU结合了循环神经网络(RNN)的快速增量处理能力和状态空间模型(SSM)的高效并行训练,同时可靠地建模动态笔画特征。我们在CASIA-OLHWDB1.1数据集的三个子集(数字、英文大写字母和汉字部首)上进行了高达±180°的随机旋转角度的识别实验。集成学习后的准确率分别达到99.62%,96.67%和94.33%。实验结果表明,所提出的SW-PS + LRU框架在收敛速度和测试精度方面均优于同类模型。
🔬 方法详解
问题定义:在线手写字符识别对旋转角度敏感,导致识别精度下降。现有方法难以有效提取旋转不变特征,影响了实际应用中的鲁棒性。因此,需要一种能够有效处理旋转变形的在线手写字符识别方法。
核心思路:论文的核心思路是结合滑动窗口路径签名(SW-PS)提取局部旋转不变特征,并利用线性循环单元(LRU)对动态笔画特征进行高效建模和分类。SW-PS能够捕获笔画的局部几何结构,对旋转具有一定的鲁棒性。LRU则能够在保持RNN的序列建模能力的同时,实现高效的并行训练。
技术框架:该框架主要包含两个阶段:特征提取和分类。首先,使用滑动窗口路径签名(SW-PS)从在线手写字符的笔画数据中提取局部结构特征。然后,将提取的特征序列输入到线性循环单元(LRU)分类器中进行分类。整个流程是端到端可训练的。
关键创新:该论文的关键创新在于将滑动窗口路径签名(SW-PS)和线性循环单元(LRU)结合起来,用于旋转不变的在线手写字符识别。SW-PS能够提取对旋转具有一定鲁棒性的局部特征,而LRU则能够高效地建模动态笔画特征,并且具有并行训练的优势。这种结合有效地提高了识别精度和训练效率。
关键设计:滑动窗口大小和步长是SW-PS的关键参数,影响特征的局部性和计算复杂度。LRU的网络结构包括输入层、循环层和输出层。循环层的隐藏状态维度需要根据数据集的复杂程度进行调整。损失函数采用交叉熵损失函数,优化器采用Adam优化器。实验中,采用了集成学习的方法,将多个LRU模型的预测结果进行加权平均,进一步提高了识别精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CASIA-OLHWDB1.1数据集的三个子集上,即使在高达±180°的随机旋转角度下,也能取得较高的识别精度。数字、英文大写字母和汉字部首的集成学习准确率分别达到99.62%,96.67%和94.33%。该方法在收敛速度和测试精度方面均优于同类模型,证明了其有效性和优越性。
🎯 应用场景
该研究成果可应用于手写输入法、签名验证、文档识别等领域。特别是在需要处理旋转变形的场景下,例如用户随意角度书写或扫描文档时,该方法能够提供更准确和鲁棒的识别结果。未来可进一步扩展到更复杂的手写场景,如多语言手写识别。
📄 摘要(原文)
Online handwritten character recognition leverages stroke order and dynamic features, which generally provide higher accuracy and robustness compared with offline recognition. However, in practical applications, rotational deformations can disrupt the spatial layout of strokes, substantially reducing recognition accuracy. Extracting rotation-invariant features therefore remains a challenging open problem. In this work, we employ the Sliding Window Path Signature (SW-PS) to capture local structural features of characters, and introduce the lightweight Linear Recurrent Units (LRU) as the classifier. The LRU combine the fast incremental processing capability of recurrent neural networks (RNN) with the efficient parallel training of state space models (SSM), while reliably modelling dynamic stroke characteristics. We conducted recognition experiments with random rotation angle up to $\pm 180^{\circ}$ on three subsets of the CASIA-OLHWDB1.1 dataset: digits, English upper letters, and Chinese radicals. The accuracies achieved after ensemble learning were $99.62\%$, $96.67\%$, and $94.33\%$, respectively. Experimental results demonstrate that the proposed SW-PS+LRU framework consistently surpasses competing models in both convergence speed and test accuracy.