RAWDet-7: A Multi-Scenario Benchmark for Object Detection and Description on Quantized RAW Images
作者: Mishal Fatima, Shashank Agnihotri, Kanchana Vaishnavi Gandikota, Michael Moeller, Margret Keuper
分类: cs.CV
发布日期: 2026-02-03
备注: *Equal Contribution
💡 一句话要点
RAWDet-7:用于量化RAW图像目标检测与描述的多场景基准数据集
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: RAW图像 目标检测 目标描述 低比特量化 数据集 计算机视觉 传感器数据
📋 核心要点
- 现有视觉模型主要基于经过ISP处理的RGB图像训练,忽略了RAW图像中蕴含的丰富传感器信息,限制了机器推理能力。
- RAWDet-7数据集旨在提供一个大规模、多场景的RAW图像数据集,包含目标检测和描述的标注,支持低比特量化研究。
- 该数据集包含多种相机、光照条件和环境下的RAW图像,并提供对象级别的描述,可用于评估模型在不同量化级别下的性能。
📝 摘要(中文)
大多数视觉模型在经过ISP流水线处理的RGB图像上训练,这些流水线针对人类感知进行了优化,可能会丢弃对机器推理有用的传感器级信息。RAW图像保留了未处理的场景数据,使模型能够利用更丰富的线索进行目标检测和描述,捕捉在处理图像中经常丢失的细粒度细节、空间关系和上下文信息。为了支持该领域的研究,我们推出了RAWDet-7,这是一个大规模数据集,包含约2.5万张训练RAW图像和7.6千张测试RAW图像,这些图像是在不同的相机、光照条件和环境下收集的,并按照MS-COCO和LVIS的惯例对七个目标类别进行了密集标注。此外,我们还提供了从相应高分辨率sRGB图像导出的对象级描述,从而有助于研究在RAW图像处理和低比特量化下对象级信息的保存情况。该数据集允许在模拟的4比特、6比特和8比特量化下进行评估,反映了真实的传感器约束,并为研究低比特RAW图像处理中的检测性能、描述质量和细节以及泛化能力提供了一个基准。
🔬 方法详解
问题定义:现有目标检测和描述模型主要依赖于经过图像信号处理器(ISP)处理的RGB图像。ISP为了优化人类视觉感知,会损失原始传感器数据中的细节和信息,这对于机器理解和推理是不利的。尤其是在低比特量化的情况下,信息损失会更加严重。因此,如何直接在RAW图像上进行目标检测和描述,并保持甚至提升性能,是一个重要的研究问题。
核心思路:本论文的核心思路是提供一个高质量的RAW图像数据集,该数据集包含丰富的场景和目标标注,并支持低比特量化模拟。通过在这个数据集上训练和评估模型,可以促进直接在RAW图像上进行目标检测和描述的研究,并探索低比特量化对模型性能的影响。
技术框架:RAWDet-7数据集的构建流程主要包括以下几个阶段:1) 数据采集:使用多种相机在不同的光照条件和环境下采集RAW图像。2) 数据标注:按照MS-COCO和LVIS的惯例,对图像中的七个目标类别进行密集标注。3) 对象描述:从对应的高分辨率sRGB图像中提取对象级别的描述信息。4) 量化模拟:提供模拟的4比特、6比特和8比特量化图像,以反映真实的传感器约束。
关键创新:RAWDet-7数据集的关键创新在于:1) 它是首个大规模的、多场景的RAW图像目标检测和描述数据集。2) 它提供了对象级别的描述信息,可以用于研究RAW图像处理和低比特量化下对象级信息的保存情况。3) 它支持低比特量化模拟,可以用于评估模型在不同量化级别下的性能。
关键设计:数据集包含约2.5万张训练RAW图像和7.6千张测试RAW图像,涵盖七个目标类别。标注遵循MS-COCO和LVIS的惯例。对象描述从对应的高分辨率sRGB图像中提取。量化模拟采用线性量化方法,提供4比特、6比特和8比特三种量化级别。
🖼️ 关键图片
📊 实验亮点
RAWDet-7数据集的发布为RAW图像上的目标检测和描述研究提供了一个重要的基准。通过在该数据集上进行实验,研究人员可以评估不同模型在RAW图像上的性能,并探索低比特量化对模型性能的影响。该数据集的丰富标注和多样化场景,为研究人员提供了充分的实验数据,有望推动相关领域的发展。
🎯 应用场景
该研究成果可应用于各种需要直接处理原始传感器数据的场景,例如自动驾驶、机器人视觉、安防监控等。通过在RAW图像上进行目标检测和描述,可以提高模型的鲁棒性和准确性,尤其是在光照条件不佳或图像质量较低的情况下。此外,该数据集可以促进低比特视觉模型的研究,降低计算成本和存储空间,使其更易于部署在资源受限的设备上。
📄 摘要(原文)
Most vision models are trained on RGB images processed through ISP pipelines optimized for human perception, which can discard sensor-level information useful for machine reasoning. RAW images preserve unprocessed scene data, enabling models to leverage richer cues for both object detection and object description, capturing fine-grained details, spatial relationships, and contextual information often lost in processed images. To support research in this domain, we introduce RAWDet-7, a large-scale dataset of ~25k training and 7.6k test RAW images collected across diverse cameras, lighting conditions, and environments, densely annotated for seven object categories following MS-COCO and LVIS conventions. In addition, we provide object-level descriptions derived from the corresponding high-resolution sRGB images, facilitating the study of object-level information preservation under RAW image processing and low-bit quantization. The dataset allows evaluation under simulated 4-bit, 6-bit, and 8-bit quantization, reflecting realistic sensor constraints, and provides a benchmark for studying detection performance, description quality & detail, and generalization in low-bit RAW image processing. Dataset & code upon acceptance.