Image Rotation Angle Estimation: Comparing Circular-Aware Methods

📄 arXiv: 2603.25351v1 📥 PDF

作者: Maximilian Woehrer

分类: cs.CV, cs.AI, eess.IV

发布日期: 2026-03-26

备注: 7 pages, 3 figures, 2 tables. Under review at Pattern Recognition Letters


💡 一句话要点

针对图像旋转角度估计,对比研究了五种循环感知方法,并验证了概率方法的有效性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像旋转角度估计 循环感知方法 循环高斯分布 角度分箱分类 迁移学习 计算机视觉 图像处理

📋 核心要点

  1. 图像旋转角度估计面临角度循环拓扑带来的边界不连续性问题,传统回归方法难以有效处理。
  2. 论文研究了五种循环感知方法,包括直接角度回归、角度分箱分类、单位向量回归等,并着重分析了循环高斯分布。
  3. 实验表明,循环高斯分布在不同架构中表现稳健,分类方法在特定骨干网络上精度最高,并在COCO数据集上取得了显著提升。

📝 摘要(中文)

自动图像旋转角度估计是许多视觉流程中的关键预处理步骤。由于角度具有循环拓扑结构,导致边界不连续性,阻碍了标准回归方法,因此这项任务具有挑战性。本文对五种用于全局方向估计的循环感知方法进行了全面研究:使用循环损失的直接角度回归、通过角度分箱进行分类、单位向量回归、相移编码器和循环高斯分布。通过迁移学习来自ImageNet预训练的模型,我们通过调整其输出头以进行旋转特定的预测,系统地评估了这五种方法在十六种现代架构上的性能。结果表明,概率方法,特别是循环高斯分布,在各种架构中是最稳健的,而分类在良好匹配的骨干网络上实现了最佳精度,但在其他骨干网络上则存在训练不稳定性。最佳配置(使用EfficientViT-B3进行分类)在DRC-D数据集上实现了1.23°的平均绝对误差(MAE)(五次独立运行的平均值),而使用MambaOut Base的循环高斯分布实现了几乎相同的1.24°,并且在各种骨干网络中具有更高的鲁棒性。在COCO 2014上训练和评估我们表现最佳的方法-架构组合,最佳配置达到了3.71°MAE,与先前的工作相比有了显着改进,并且在更大的COCO 2017数据集上进一步改进到2.84°。

🔬 方法详解

问题定义:论文旨在解决图像旋转角度的精确估计问题。现有方法,特别是基于回归的方法,在处理角度的循环特性时存在困难,因为角度0°和360°在数值上差异很大,但实际代表相同的方向,这导致损失函数难以优化,影响估计精度。

核心思路:论文的核心思路是利用循环感知的方法来解决角度估计问题,这些方法能够更好地处理角度的周期性。具体来说,论文比较了五种不同的循环感知方法,包括直接角度回归(使用循环损失函数)、角度分箱分类、单位向量回归、相移编码器和循环高斯分布。通过对比这些方法,找到最适合图像旋转角度估计的方法。

技术框架:整体框架基于迁移学习,首先使用ImageNet预训练的模型作为骨干网络,然后针对旋转角度估计任务,修改模型的输出层。具体流程包括:1) 选择预训练的骨干网络(如EfficientViT、MambaOut等);2) 修改骨干网络的输出层,使其适应不同的循环感知方法(如分类、回归等);3) 使用旋转图像数据集训练模型;4) 评估模型在测试集上的性能。

关键创新:论文的关键创新在于对多种循环感知方法进行了系统的比较和分析,并发现循环高斯分布方法在不同骨干网络上具有更好的鲁棒性。此外,论文还通过实验验证了这些方法在实际数据集上的有效性,并取得了比现有方法更好的性能。

关键设计:在循环高斯分布方法中,模型预测的是角度的均值和方差,而不是直接预测角度值。损失函数采用负对数似然损失,鼓励模型学习到更准确的角度分布。在角度分箱分类方法中,角度范围被划分为多个离散的bin,模型预测每个bin的概率,损失函数采用交叉熵损失。对于不同的骨干网络,论文对学习率、batch size等超参数进行了调整,以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,循环高斯分布方法在不同骨干网络上表现出较好的鲁棒性,而角度分箱分类方法在特定骨干网络上取得了最佳精度。最佳配置(EfficientViT-B3 + 分类)在DRC-D数据集上实现了1.23°的平均绝对误差(MAE)。在COCO 2014数据集上,最佳配置达到了3.71°MAE,在COCO 2017数据集上进一步提升至2.84°MAE,显著优于现有技术。

🎯 应用场景

该研究成果可应用于图像处理、计算机视觉、机器人导航等领域。例如,在自动驾驶中,可以利用该技术校正摄像头拍摄的图像,提高目标检测和识别的准确性。在医学图像分析中,可以用于校正扫描图像的方向,方便医生进行诊断。此外,该技术还可用于文档图像校正、卫星图像处理等。

📄 摘要(原文)

Automatic image rotation estimation is a key preprocessing step in many vision pipelines. This task is challenging because angles have circular topology, creating boundary discontinuities that hinder standard regression methods. We present a comprehensive study of five circular-aware methods for global orientation estimation: direct angle regression with circular loss, classification via angular binning, unit-vector regression, phase-shifting coder, and circular Gaussian distribution. Using transfer learning from ImageNet-pretrained models, we systematically evaluate these methods across sixteen modern architectures by adapting their output heads for rotation-specific predictions. Our results show that probabilistic methods, particularly the circular Gaussian distribution, are the most robust across architectures, while classification achieves the best accuracy on well-matched backbones but suffers training instabilities on others. The best configuration (classification with EfficientViT-B3) achieves a mean absolute error (MAE) of 1.23° (mean across five independent runs) on the DRC-D dataset, while the circular Gaussian distribution with MambaOut Base achieves a virtually identical 1.24° with greater robustness across backbones. Training and evaluating our top-performing method-architecture combinations on COCO 2014, the best configuration reaches 3.71° MAE, improving substantially over prior work, with further improvement to 2.84° on the larger COCO 2017 dataset.