Image Rotation Angle Estimation: Comparing Circular-Aware Methods

作者: Maximilian Woehrer

分类: cs.CV, cs.AI, eess.IV

发布日期: 2026-03-26

备注: 7 pages, 3 figures, 2 tables. Under review at Pattern Recognition Letters

💡 一句话要点

针对图像旋转角度估计，对比研究了五种循环感知方法，并验证了概率方法的有效性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像旋转角度估计 循环感知方法 循环高斯分布 角度分箱分类 迁移学习 计算机视觉 图像处理

📋 核心要点

图像旋转角度估计面临角度循环拓扑带来的边界不连续性问题，传统回归方法难以有效处理。
论文研究了五种循环感知方法，包括直接角度回归、角度分箱分类、单位向量回归等，并着重分析了循环高斯分布。
实验表明，循环高斯分布在不同架构中表现稳健，分类方法在特定骨干网络上精度最高，并在COCO数据集上取得了显著提升。

📝 摘要（中文）

自动图像旋转角度估计是许多视觉流程中的关键预处理步骤。由于角度具有循环拓扑结构，导致边界不连续性，阻碍了标准回归方法，因此这项任务具有挑战性。本文对五种用于全局方向估计的循环感知方法进行了全面研究：使用循环损失的直接角度回归、通过角度分箱进行分类、单位向量回归、相移编码器和循环高斯分布。通过迁移学习来自ImageNet预训练的模型，我们通过调整其输出头以进行旋转特定的预测，系统地评估了这五种方法在十六种现代架构上的性能。结果表明，概率方法，特别是循环高斯分布，在各种架构中是最稳健的，而分类在良好匹配的骨干网络上实现了最佳精度，但在其他骨干网络上则存在训练不稳定性。最佳配置（使用EfficientViT-B3进行分类）在DRC-D数据集上实现了1.23°的平均绝对误差（MAE）（五次独立运行的平均值），而使用MambaOut Base的循环高斯分布实现了几乎相同的1.24°，并且在各种骨干网络中具有更高的鲁棒性。在COCO 2014上训练和评估我们表现最佳的方法-架构组合，最佳配置达到了3.71°MAE，与先前的工作相比有了显着改进，并且在更大的COCO 2017数据集上进一步改进到2.84°。

🔬 方法详解

问题定义：论文旨在解决图像旋转角度的精确估计问题。现有方法，特别是基于回归的方法，在处理角度的循环特性时存在困难，因为角度0°和360°在数值上差异很大，但实际代表相同的方向，这导致损失函数难以优化，影响估计精度。

核心思路：论文的核心思路是利用循环感知的方法来解决角度估计问题，这些方法能够更好地处理角度的周期性。具体来说，论文比较了五种不同的循环感知方法，包括直接角度回归（使用循环损失函数）、角度分箱分类、单位向量回归、相移编码器和循环高斯分布。通过对比这些方法，找到最适合图像旋转角度估计的方法。

技术框架：整体框架基于迁移学习，首先使用ImageNet预训练的模型作为骨干网络，然后针对旋转角度估计任务，修改模型的输出层。具体流程包括：1) 选择预训练的骨干网络（如EfficientViT、MambaOut等）；2) 修改骨干网络的输出层，使其适应不同的循环感知方法（如分类、回归等）；3) 使用旋转图像数据集训练模型；4) 评估模型在测试集上的性能。

关键创新：论文的关键创新在于对多种循环感知方法进行了系统的比较和分析，并发现循环高斯分布方法在不同骨干网络上具有更好的鲁棒性。此外，论文还通过实验验证了这些方法在实际数据集上的有效性，并取得了比现有方法更好的性能。

关键设计：在循环高斯分布方法中，模型预测的是角度的均值和方差，而不是直接预测角度值。损失函数采用负对数似然损失，鼓励模型学习到更准确的角度分布。在角度分箱分类方法中，角度范围被划分为多个离散的bin，模型预测每个bin的概率，损失函数采用交叉熵损失。对于不同的骨干网络，论文对学习率、batch size等超参数进行了调整，以获得最佳性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，循环高斯分布方法在不同骨干网络上表现出较好的鲁棒性，而角度分箱分类方法在特定骨干网络上取得了最佳精度。最佳配置（EfficientViT-B3 + 分类）在DRC-D数据集上实现了1.23°的平均绝对误差（MAE）。在COCO 2014数据集上，最佳配置达到了3.71°MAE，在COCO 2017数据集上进一步提升至2.84°MAE，显著优于现有技术。

🎯 应用场景

该研究成果可应用于图像处理、计算机视觉、机器人导航等领域。例如，在自动驾驶中，可以利用该技术校正摄像头拍摄的图像，提高目标检测和识别的准确性。在医学图像分析中，可以用于校正扫描图像的方向，方便医生进行诊断。此外，该技术还可用于文档图像校正、卫星图像处理等。

📄 摘要（原文）

Automatic image rotation estimation is a key preprocessing step in many vision pipelines. This task is challenging because angles have circular topology, creating boundary discontinuities that hinder standard regression methods. We present a comprehensive study of five circular-aware methods for global orientation estimation: direct angle regression with circular loss, classification via angular binning, unit-vector regression, phase-shifting coder, and circular Gaussian distribution. Using transfer learning from ImageNet-pretrained models, we systematically evaluate these methods across sixteen modern architectures by adapting their output heads for rotation-specific predictions. Our results show that probabilistic methods, particularly the circular Gaussian distribution, are the most robust across architectures, while classification achieves the best accuracy on well-matched backbones but suffers training instabilities on others. The best configuration (classification with EfficientViT-B3) achieves a mean absolute error (MAE) of 1.23° (mean across five independent runs) on the DRC-D dataset, while the circular Gaussian distribution with MambaOut Base achieves a virtually identical 1.24° with greater robustness across backbones. Training and evaluating our top-performing method-architecture combinations on COCO 2014, the best configuration reaches 3.71° MAE, improving substantially over prior work, with further improvement to 2.84° on the larger COCO 2017 dataset.

Image Rotation Angle Estimation: Comparing Circular-Aware Methods

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理