RAWDet-7: A Multi-Scenario Benchmark for Object Detection and Description on Quantized RAW Images

作者: Mishal Fatima, Shashank Agnihotri, Kanchana Vaishnavi Gandikota, Michael Moeller, Margret Keuper

分类: cs.CV

发布日期: 2026-02-03

备注: *Equal Contribution

💡 一句话要点

RAWDet-7：用于量化RAW图像目标检测与描述的多场景基准数据集

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: RAW图像 目标检测 目标描述 低比特量化 数据集 计算机视觉 传感器数据

📋 核心要点

现有视觉模型主要基于经过ISP处理的RGB图像训练，忽略了RAW图像中蕴含的丰富传感器信息，限制了机器推理能力。
RAWDet-7数据集旨在提供一个大规模、多场景的RAW图像数据集，包含目标检测和描述的标注，支持低比特量化研究。
该数据集包含多种相机、光照条件和环境下的RAW图像，并提供对象级别的描述，可用于评估模型在不同量化级别下的性能。

📝 摘要（中文）

大多数视觉模型在经过ISP流水线处理的RGB图像上训练，这些流水线针对人类感知进行了优化，可能会丢弃对机器推理有用的传感器级信息。RAW图像保留了未处理的场景数据，使模型能够利用更丰富的线索进行目标检测和描述，捕捉在处理图像中经常丢失的细粒度细节、空间关系和上下文信息。为了支持该领域的研究，我们推出了RAWDet-7，这是一个大规模数据集，包含约2.5万张训练RAW图像和7.6千张测试RAW图像，这些图像是在不同的相机、光照条件和环境下收集的，并按照MS-COCO和LVIS的惯例对七个目标类别进行了密集标注。此外，我们还提供了从相应高分辨率sRGB图像导出的对象级描述，从而有助于研究在RAW图像处理和低比特量化下对象级信息的保存情况。该数据集允许在模拟的4比特、6比特和8比特量化下进行评估，反映了真实的传感器约束，并为研究低比特RAW图像处理中的检测性能、描述质量和细节以及泛化能力提供了一个基准。

🔬 方法详解

问题定义：现有目标检测和描述模型主要依赖于经过图像信号处理器（ISP）处理的RGB图像。ISP为了优化人类视觉感知，会损失原始传感器数据中的细节和信息，这对于机器理解和推理是不利的。尤其是在低比特量化的情况下，信息损失会更加严重。因此，如何直接在RAW图像上进行目标检测和描述，并保持甚至提升性能，是一个重要的研究问题。

核心思路：本论文的核心思路是提供一个高质量的RAW图像数据集，该数据集包含丰富的场景和目标标注，并支持低比特量化模拟。通过在这个数据集上训练和评估模型，可以促进直接在RAW图像上进行目标检测和描述的研究，并探索低比特量化对模型性能的影响。

技术框架：RAWDet-7数据集的构建流程主要包括以下几个阶段：1) 数据采集：使用多种相机在不同的光照条件和环境下采集RAW图像。2) 数据标注：按照MS-COCO和LVIS的惯例，对图像中的七个目标类别进行密集标注。3) 对象描述：从对应的高分辨率sRGB图像中提取对象级别的描述信息。4) 量化模拟：提供模拟的4比特、6比特和8比特量化图像，以反映真实的传感器约束。

关键创新：RAWDet-7数据集的关键创新在于：1) 它是首个大规模的、多场景的RAW图像目标检测和描述数据集。2) 它提供了对象级别的描述信息，可以用于研究RAW图像处理和低比特量化下对象级信息的保存情况。3) 它支持低比特量化模拟，可以用于评估模型在不同量化级别下的性能。

关键设计：数据集包含约2.5万张训练RAW图像和7.6千张测试RAW图像，涵盖七个目标类别。标注遵循MS-COCO和LVIS的惯例。对象描述从对应的高分辨率sRGB图像中提取。量化模拟采用线性量化方法，提供4比特、6比特和8比特三种量化级别。

🖼️ 关键图片

📊 实验亮点

RAWDet-7数据集的发布为RAW图像上的目标检测和描述研究提供了一个重要的基准。通过在该数据集上进行实验，研究人员可以评估不同模型在RAW图像上的性能，并探索低比特量化对模型性能的影响。该数据集的丰富标注和多样化场景，为研究人员提供了充分的实验数据，有望推动相关领域的发展。

🎯 应用场景

该研究成果可应用于各种需要直接处理原始传感器数据的场景，例如自动驾驶、机器人视觉、安防监控等。通过在RAW图像上进行目标检测和描述，可以提高模型的鲁棒性和准确性，尤其是在光照条件不佳或图像质量较低的情况下。此外，该数据集可以促进低比特视觉模型的研究，降低计算成本和存储空间，使其更易于部署在资源受限的设备上。

📄 摘要（原文）

Most vision models are trained on RGB images processed through ISP pipelines optimized for human perception, which can discard sensor-level information useful for machine reasoning. RAW images preserve unprocessed scene data, enabling models to leverage richer cues for both object detection and object description, capturing fine-grained details, spatial relationships, and contextual information often lost in processed images. To support research in this domain, we introduce RAWDet-7, a large-scale dataset of ~25k training and 7.6k test RAW images collected across diverse cameras, lighting conditions, and environments, densely annotated for seven object categories following MS-COCO and LVIS conventions. In addition, we provide object-level descriptions derived from the corresponding high-resolution sRGB images, facilitating the study of object-level information preservation under RAW image processing and low-bit quantization. The dataset allows evaluation under simulated 4-bit, 6-bit, and 8-bit quantization, reflecting realistic sensor constraints, and provides a benchmark for studying detection performance, description quality & detail, and generalization in low-bit RAW image processing. Dataset & code upon acceptance.

RAWDet-7: A Multi-Scenario Benchmark for Object Detection and Description on Quantized RAW Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理