On RGB-TIR Stereo Calibration under Extreme Resolution Asymmetry

📄 arXiv: 2605.15860v1 📥 PDF

作者: Michał Król, Michał Salamonowicz, Władysław Skarbek, Michał Tomaszewski

分类: cs.CV

发布日期: 2026-05-15

备注: 27 pages, 12 figures, 3 tables


💡 一句话要点

提出一种RGB-TIR立体标定框架,解决极端分辨率不对称下的标定难题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RGB-TIR立体标定 热红外成像 相机标定 建筑能源评估 角点检测

📋 核心要点

  1. RGB-TIR立体相机标定在建筑外壳分析中至关重要,但低分辨率TIR传感器的应用带来了挑战。
  2. 利用主动OLED屏幕动态切换模态特定图案,提供可控的热对比,解决分辨率不对称问题。
  3. 提出的角点检测算法和基线约束的捆绑调整,实现了高精度标定,重投影误差仅为0.382像素。

📝 摘要(中文)

本文提出了一种用于RGB-热红外(TIR)立体相机系统的实用标定框架,该系统在多模态建筑外壳分析中至关重要。当使用低成本、极低空间分辨率的热传感器时,精确的几何标定仍然具有挑战性。本框架针对RGB相机(2028 x 1520像素)和TIR相机(仅80 x 62像素,像素比约为1:625)配对的情况。一个主动OLED屏幕动态切换特定模态的图案(TIR使用棋盘格,RGB使用ChArUco),在单个物理表面上提供可控和可重复的热对比。一种专用角点检测算法结合了透视校正、Hessian鞍点分析和Mean Shift定位,实现了在80 x 62像素下可靠的棋盘格检测,无需逐帧参数调整。在平面标定对象退化的情况下,基线约束的捆绑调整强制执行物理一致的装置几何结构,产生32.7毫米的立体基线(标称30毫米),总体重投影误差为0.382像素。该系统在一个热激活的建筑模型上进行了验证,使用恒定深度和逐像素深度估计,证明了TIR到RGB投影的一致性,适用于建筑能源性能评估。

🔬 方法详解

问题定义:论文旨在解决RGB相机和极低分辨率TIR相机进行立体标定的问题。现有方法在处理这种极端分辨率不对称时,角点检测精度低,标定结果不稳定,难以满足建筑能源性能评估等应用的需求。

核心思路:核心思路是利用主动OLED屏幕生成模态特定的标定图案,为TIR相机提供足够的热对比度,并设计专门的角点检测算法,提高TIR图像的角点定位精度。同时,通过基线约束的捆绑调整,保证标定结果的物理一致性。

技术框架:整体流程包括:1) 使用主动OLED屏幕显示RGB和TIR相机各自的标定图案;2) 采集RGB和TIR图像;3) 使用专用角点检测算法检测TIR图像中的棋盘格角点;4) 使用ChArUco算法检测RGB图像中的角点;5) 进行基线约束的捆绑调整,优化相机内外参数。

关键创新:主要创新点在于:1) 提出了一种基于主动OLED屏幕的模态特定标定图案生成方法,解决了TIR相机热对比度不足的问题;2) 设计了一种结合透视校正、Hessian鞍点分析和Mean Shift定位的角点检测算法,提高了TIR图像的角点定位精度;3) 引入基线约束的捆绑调整,保证了标定结果的物理一致性。

关键设计:1) OLED屏幕动态切换棋盘格(TIR)和ChArUco(RGB)图案;2) 角点检测算法中,Hessian矩阵用于初步定位角点,Mean Shift算法用于精确定位;3) 捆绑调整中,基线长度作为约束条件,防止平面标定对象引起的退化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在RGB相机(2028 x 1520 px)和TIR相机(80 x 62 px)的极端分辨率不对称情况下,能够实现高精度的立体标定,重投影误差仅为0.382像素。与未采用基线约束的标定方法相比,该方法能够获得更稳定的基线长度估计,更符合实际物理结构。

🎯 应用场景

该研究成果可应用于建筑能源性能评估、建筑热缺陷检测、智能家居等领域。通过精确的RGB-TIR立体视觉,可以实现对建筑物表面温度分布的精确测量,从而为节能改造提供数据支持,并提高建筑的舒适性和安全性。未来,该技术有望应用于更广泛的红外热成像领域。

📄 摘要(原文)

Accurate geometric calibration of RGB-thermal infrared (TIR) stereo camera systems is essential for multimodal building envelope analysis, yet remains challenging when low-cost thermal sensors with very low spatial resolution are employed. This paper presents a practical stereo calibration framework for an RGB camera (2028 x 1520 px) paired with a TIR camera operating at only 80 x 62 px - a pixel-count ratio of approximately 1:625. An active OLED screen dynamically switches modality-specific patterns (checkerboard for TIR, ChArUco for RGB) on a single physical surface, providing controlled and repeatable thermal contrast. A dedicated corner detection algorithm combining perspective rectification, Hessian saddle-point analysis, and Mean Shift localisation achieves reliable checkerboard detection at 80 x 62 px without per-frame parameter tuning. A baseline-constrained bundle adjustment enforces physically consistent rig geometry under the planar-calibration-object degeneracy, yielding a stereo baseline of 32.7 mm (nominal 30 mm) with an overall reprojection error of 0.382 px. The system is validated on a thermally active building mock-up using constant-depth and per-pixel depth estimation, demonstrating consistent TIR-to-RGB projection suitable for building energy performance assessment.