RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models

作者: Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-03-25 (更新: 2025-03-30)

💡 一句话要点

提出RGB-Th-Bench，用于评估视觉语言模型对RGB-Thermal图像对的理解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: RGB-Thermal图像 视觉语言模型 多模态学习 基准数据集 红外视觉

📋 核心要点

现有视觉语言模型(VLMs)在红外视觉任务中的能力评估不足，缺乏高质量的RGB-Thermal图像对标注数据集。
RGB-Th-Bench通过构建包含14个技能维度、1600+专家标注问题的基准，全面评估VLMs对RGB-Thermal图像对的理解能力。
实验结果表明，现有VLMs在热图像理解方面存在显著性能差距，亟需在多模态学习方面进行改进。

📝 摘要（中文）

本文提出了RGB-Th-Bench，这是首个旨在评估视觉语言模型(VLMs)理解RGB-Thermal图像对能力的基准。尽管VLMs在视觉推理和多模态理解方面取得了显著进展，但其评估主要局限于基于RGB的基准，这在评估红外视觉任务中的能力方面存在关键差距。现有的可见光-红外数据集要么是特定于任务的，要么缺乏高质量的标注，无法进行严格的模型评估。为了解决这些限制，RGB-Th-Bench提供了一个全面的评估框架，涵盖14个不同的技能维度，总共有1600多个专家标注的是/否问题。该基准采用两种精度指标：标准的问答精度和更严格的技能级精度，后者评估模型在每个技能维度内的多个问题上的鲁棒性。这种设计确保了对模型性能的全面评估，包括对对抗性和幻觉响应的抵抗力。我们对19个最先进的VLMs进行了广泛的评估，揭示了RGB-Thermal理解方面的显著性能差距。结果表明，即使是最强大的模型也在热图像理解方面存在困难，其性能受到基于RGB的能力的严重限制。此外，预训练中缺乏大规模的特定应用和专家标注的热-字幕对数据集是观察到的性能差距的重要原因。RGB-Th-Bench强调了在多模态学习方面进行进一步改进的迫切需求，以弥合可见光和热图像理解之间的差距。该数据集可通过此链接获得，评估代码也将公开提供。

🔬 方法详解

问题定义：现有视觉语言模型（VLMs）的评估主要集中在RGB图像上，缺乏对红外（Thermal）图像理解能力的有效评估。现有的可见光-红外数据集要么是任务特定的，要么缺乏高质量的标注，难以进行严格的模型评估，这限制了VLMs在实际应用中的潜力。

核心思路：RGB-Th-Bench的核心思路是构建一个高质量、多维度的RGB-Thermal图像对基准，用于全面评估VLMs对可见光和红外图像的联合理解能力。通过专家标注的问答对，覆盖多种技能维度，从而更准确地衡量模型在不同场景下的表现。

技术框架：RGB-Th-Bench包含以下主要组成部分： 1. RGB-Thermal图像对数据集：收集包含配对的RGB和Thermal图像的数据集。 2. 技能维度定义：定义14个不同的技能维度，例如目标检测、属性识别、关系推理等，以覆盖不同的视觉理解能力。 3. 专家标注问答对：针对每个技能维度，由专家标注高质量的Yes/No问题，确保问题的准确性和难度。 4. 评估指标：采用问答精度和技能级精度两种指标，全面评估模型的性能和鲁棒性。技能级精度要求模型在同一技能维度的多个问题上都表现良好，以避免偶然性。

关键创新：RGB-Th-Bench的关键创新在于其首次提出了一个专门用于评估VLMs对RGB-Thermal图像对理解能力的基准。与现有数据集相比，RGB-Th-Bench具有以下优势： 1. 多维度评估：覆盖14个不同的技能维度，更全面地评估模型的理解能力。 2. 高质量标注：采用专家标注的问答对，确保标注的准确性和一致性。 3. 严格的评估指标：采用技能级精度，更严格地评估模型的鲁棒性。

关键设计：RGB-Th-Bench的关键设计包括： 1. 技能维度的选择：选择的技能维度涵盖了常见的视觉理解任务，例如目标检测、属性识别、关系推理、场景理解等。 2. 问答对的设计：问答对的设计力求简洁明了，避免歧义，并确保问题与图像内容相关。 3. 评估指标的计算：技能级精度通过计算模型在同一技能维度内所有问题上的平均精度来获得，从而更准确地反映模型的整体性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的VLMs在RGB-Th-Bench上的表现也远低于在RGB图像上的表现，突显了现有模型在热图像理解方面的不足。例如，某些模型在RGB图像上的精度达到80%以上，但在RGB-Th-Bench上的精度仅为50%左右。这表明需要进一步研究和开发专门针对RGB-Thermal图像对的视觉理解算法。

🎯 应用场景

RGB-Th-Bench可应用于自动驾驶、安防监控、机器人导航等领域，提升视觉系统在复杂环境下的感知能力。该基准的发布将促进多模态视觉理解算法的发展，推动相关技术在实际场景中的应用，例如在恶劣天气或光照条件下提高自动驾驶系统的安全性。

📄 摘要（原文）

We introduce RGB-Th-Bench, the first benchmark designed to evaluate the ability of Vision-Language Models (VLMs) to comprehend RGB-Thermal image pairs. While VLMs have demonstrated remarkable progress in visual reasoning and multimodal understanding, their evaluation has been predominantly limited to RGB-based benchmarks, leaving a critical gap in assessing their capabilities in infrared vision tasks. Existing visible-infrared datasets are either task-specific or lack high-quality annotations necessary for rigorous model evaluation. To address these limitations, RGB-Th-Bench provides a comprehensive evaluation framework covering 14 distinct skill dimensions, with a total of 1,600+ expert-annotated Yes/No questions. The benchmark employs two accuracy metrics: a standard question-level accuracy and a stricter skill-level accuracy, which evaluates model robustness across multiple questions within each skill dimension. This design ensures a thorough assessment of model performance, including resilience to adversarial and hallucinated responses. We conduct extensive evaluations on 19 state-of-the-art VLMs, revealing significant performance gaps in RGB-Thermal understanding. Our results show that even the strongest models struggle with thermal image comprehension, with performance heavily constrained by their RGB-based capabilities. Additionally, the lack of large-scale application-specific and expert-annotated thermal-caption-pair datasets in pre-training is an important reason of the observed performance gap. RGB-Th-Bench highlights the urgent need for further advancements in multimodal learning to bridge the gap between visible and thermal image understanding. The dataset is available through this link, and the evaluation code will also be made publicly available.

RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理