Superpowering Open-Vocabulary Object Detectors for X-ray Vision

作者: Pablo Garcia-Fernandez, Lorenzo Vaquero, Mingxuan Liu, Feng Xue, Daniel Cores, Nicu Sebe, Manuel Mucientes, Elisa Ricci

分类: cs.CV

发布日期: 2025-03-21 (更新: 2025-10-28)

备注: Accepted at ICCV 2025

🔗 代码/项目: GITHUB

💡 一句话要点

RAXO：赋能X射线开放词汇目标检测，无需训练数据。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 X射线图像 无需训练 领域自适应 双源检索 材料转移 安全检查

📋 核心要点

现有X射线开放词汇目标检测方法受限于数据稀缺和RGB与X射线图像的模态差异。
RAXO通过双源检索和X射线材料转移，利用RGB OvOD检测器生成高质量X射线类别描述符。
实验表明，RAXO显著提升了OvOD性能，平均mAP提升高达17.0个百分点，并发布了DET-COMPASS基准。

📝 摘要（中文）

开放词汇目标检测(OvOD)有望通过识别X射线扫描中的任何物品来革新安全检查。然而，由于数据稀缺和模态差异，为X射线成像开发有效的OvOD模型面临独特的挑战，阻碍了基于RGB解决方案的直接应用。为了克服这些限制，我们提出了RAXO，一个无需训练的框架，可将现成的RGB OvOD检测器重新用于鲁棒的X射线检测。RAXO使用双源检索策略构建高质量的X射线类别描述符。它从网络收集相关的RGB图像，并通过一种新颖的X射线材料转移机制来丰富它们，从而无需标记数据库。这些视觉描述符取代了OvOD中基于文本的分类，利用模态内特征距离进行鲁棒检测。大量实验表明，RAXO始终如一地提高了OvOD性能，与基础检测器相比，平均mAP提高了高达17.0个百分点。为了进一步支持这一新兴领域的研究，我们还引入了DET-COMPASS，这是一个新的基准，包含超过300个对象类别的边界框注释，从而可以对X射线中的OvOD进行大规模评估。代码和数据集可在https://github.com/PAGF188/RAXO 获得。

🔬 方法详解

问题定义：论文旨在解决X射线图像中开放词汇目标检测的问题。现有方法主要依赖于RGB图像训练的模型，由于X射线图像数据稀缺以及与RGB图像存在显著的模态差异，直接应用效果不佳。此外，标注大量X射线图像的成本很高，限制了有监督学习方法的应用。

核心思路：RAXO的核心思路是利用现成的RGB开放词汇目标检测器，通过构建高质量的X射线类别描述符，将其迁移到X射线图像的检测任务中。关键在于如何生成既能代表X射线图像特征，又能与RGB模型兼容的视觉描述符。

技术框架：RAXO框架主要包含以下几个阶段：1) 双源检索：从网络上检索与目标类别相关的RGB图像，作为视觉描述符的来源。2) X射线材料转移：将检索到的RGB图像进行处理，模拟X射线成像效果，增强其与X射线图像的相似性。3) 视觉描述符构建：利用处理后的RGB图像，提取视觉特征，构建X射线类别的视觉描述符。4) 目标检测：使用构建的视觉描述符替换原始OvOD模型中的文本嵌入，进行目标检测。

关键创新：RAXO的关键创新在于提出了无需训练的X射线开放词汇目标检测方法，避免了对大量标注X射线数据的依赖。通过双源检索和X射线材料转移，有效地弥合了RGB图像和X射线图像之间的模态差异，使得RGB模型能够更好地适应X射线图像的检测任务。

关键设计：X射线材料转移机制是关键设计之一，具体实现细节未知。双源检索策略的具体实现方式也未知。论文中使用的RGB OvOD检测器的具体选择未知。损失函数和网络结构等细节取决于所使用的基础OvOD模型。

🖼️ 关键图片

📊 实验亮点

RAXO在X射线开放词汇目标检测任务中取得了显著的性能提升，平均mAP提升高达17.0个百分点。该方法无需训练，避免了对大量标注数据的依赖，具有很强的实用性。此外，论文还发布了DET-COMPASS基准数据集，为该领域的研究提供了有力支持。

🎯 应用场景

RAXO在安全检查、医疗诊断等领域具有广泛的应用前景。它可以自动识别X射线扫描图像中的违禁品或疾病征兆，提高检测效率和准确性。该研究为X射线图像分析提供了一种新的思路，有望推动相关领域的发展。

📄 摘要（原文）

Open-vocabulary object detection (OvOD) is set to revolutionize security screening by enabling systems to recognize any item in X-ray scans. However, developing effective OvOD models for X-ray imaging presents unique challenges due to data scarcity and the modality gap that prevents direct adoption of RGB-based solutions. To overcome these limitations, we propose RAXO, a training-free framework that repurposes off-the-shelf RGB OvOD detectors for robust X-ray detection. RAXO builds high-quality X-ray class descriptors using a dual-source retrieval strategy. It gathers relevant RGB images from the web and enriches them via a novel X-ray material transfer mechanism, eliminating the need for labeled databases. These visual descriptors replace text-based classification in OvOD, leveraging intra-modal feature distances for robust detection. Extensive experiments demonstrate that RAXO consistently improves OvOD performance, providing an average mAP increase of up to 17.0 points over base detectors. To further support research in this emerging field, we also introduce DET-COMPASS, a new benchmark featuring bounding box annotations for over 300 object categories, enabling large-scale evaluation of OvOD in X-ray. Code and dataset available at: https://github.com/PAGF188/RAXO.

Superpowering Open-Vocabulary Object Detectors for X-ray Vision

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理