iPhoneBlur: A Difficulty-Stratified Benchmark for Consumer Device Motion Deblurring
作者: Abdullah Al Shafi, Kazi Saeed Alam
分类: cs.CV, cs.AI
发布日期: 2026-05-07
备注: 21 Pages, 12 figures
💡 一句话要点
提出iPhoneBlur基准测试:通过难度分层评估消费级设备运动去模糊性能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 运动去模糊 基准测试 计算摄影 难度分层 边缘计算 图像恢复
📋 核心要点
- 现有去模糊评估多采用聚合指标,掩盖了模型在不同模糊难度下的真实性能表现,导致部署可靠性评估缺失。
- 提出iPhoneBlur基准,通过PSNR引导的自适应时间窗口对7,400个样本进行难度分层,并提供丰富的ISP元数据。
- 实验表明模型在不同难度子集间存在显著性能鸿沟,且该基准有效揭示了专业与消费级相机间的域差异,指导模型微调。
📝 摘要(中文)
消费级移动设备的运动去模糊通常依赖聚合指标,这掩盖了模型在不同模糊难度下的性能差异,导致无法真实反映部署表现。本文提出了iPhoneBlur基准测试,包含7,400对由iPhone 17 Pro高帧率视频合成的图像对。通过基于PSNR的自适应时间窗口技术,将样本划分为简单、中等和困难三个等级,并经光流幅度验证。每个样本均包含丰富的元数据,支持ISP感知及难度自适应恢复策略的研究。频谱分析证实其合成模糊符合真实运动退化的高频抑制特征。对六种主流架构的评估显示,从简单到困难子集存在7-9 dB的性能衰减,且该基准揭示了专业相机与消费级相机间的域差异,为资源受限的边缘系统提供了可靠的失效模式评估工具。
🔬 方法详解
问题定义:现有运动去模糊研究多使用单一的聚合指标(如平均PSNR),这导致模型在极端模糊场景下的失效模式被掩盖,无法满足消费级移动设备在复杂真实场景下的部署需求。
核心思路:引入难度分层机制,通过量化模糊程度将数据集划分为简单、中等、困难三个层级,从而揭示模型在不同退化程度下的性能衰减规律,并提供ISP元数据以支持针对性的恢复策略。
技术框架:利用iPhone 17 Pro拍摄的高帧率视频作为数据源,通过PSNR引导的自适应时间窗口合成运动模糊图像对。数据集包含7,400个样本,并配套详细的元数据,支持对ISP处理流程和难度自适应算法的深入研究。
关键创新:首次将难度分层引入移动端去模糊基准,通过光流幅度验证了分层的单调性(2.2倍增长),并证实了合成模糊在频谱上与真实运动退化的一致性,有效弥补了学术界与工业界部署环境的鸿沟。
关键设计:采用基于PSNR的自适应时间窗口进行样本划分;通过频谱分析确保合成模糊的高频抑制特征;针对专业相机与消费级相机的域差异,设计了针对性的微调策略以提升模型在移动端的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验评估了六种主流架构,发现模型在从简单到困难的子集切换中,性能存在7-9 dB的显著衰减,这一关键差异在传统聚合指标中完全被掩盖。此外,研究证实了专业相机与消费级相机之间存在显著的域差异,通过针对性微调可大幅恢复性能,证明了该基准在识别模型失效模式和指导优化方面的有效性。
🎯 应用场景
该研究主要应用于移动端计算摄影领域,特别是智能手机的实时图像增强系统。其研究成果可直接指导手机厂商优化ISP算法,提升在暗光、高速运动等极端场景下的成像质量。此外,该基准为资源受限的边缘AI模型设计提供了可靠的鲁棒性评估标准,对提升移动端视觉任务的可靠性具有重要价值。
📄 摘要(原文)
Motion blur restoration on consumer mobile devices is typically evaluated using aggregate metrics that obscure performance variation across blur difficulty, masking model behavior under real deployment conditions. This work introduces iPhoneBlur, a difficulty-stratified benchmark of 7,400 image pairs synthesized from high-framerate iPhone 17 Pro videos captured in diverse real-world scenarios. Samples are partitioned into Easy, Medium, and Hard categories through PSNR-guided adaptive temporal windowing, with stratification validated by monotonic 2.2x increase in optical flow magnitude across tiers. Each sample includes comprehensive metadata enabling investigation of ISP-aware and difficulty-adaptive restoration strategies. Spectral analysis confirms synthesized blur exhibits high-frequency suppression patterns consistent with authentic motion degradation. Evaluation of six architectures reveals consistent 7-9 dB performance degradation from Easy to Hard subsets, a substantial gap entirely hidden by aggregate reporting. The benchmark further exposes a domain gap between professional and consumer cameras which targeted fine-tuning substantially recovers. By coupling difficulty stratification with deployment-critical metadata, iPhoneBlur enables systematic assessment of model reliability and failure modes for resource-constrained edge systems.