Allegory of the Cave: Measurement-Grounded Vision-Language Learning

📄 arXiv: 2605.11727v1 📥 PDF

作者: Kepeng Xu, Li Xu, Gang He, Wenxin Yu

分类: cs.AI, cs.CL, cs.CV

发布日期: 2026-05-12


💡 一句话要点

提出PRISM-VL,通过测量域视觉语言学习提升多模态推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言学习 RAW图像 测量域 多模态推理 低光增强 高动态范围 相机参数 指令调优

📋 核心要点

  1. 现有视觉语言模型依赖RGB图像,但RGB渲染会损失原始传感器信息,限制了模型性能。
  2. PRISM-VL通过引入RAW数据和相机条件对齐,直接在测量域进行视觉语言学习,保留更多原始信息。
  3. 实验表明,PRISM-VL在低光、HDR等场景下显著优于RGB基线模型,验证了测量域学习的有效性。

📝 摘要(中文)

视觉语言模型通常基于图像信号处理(ISP)后的RGB图像进行推理,然而RGB渲染会在推理前裁剪、抑制或量化传感器信息。本文研究了当视觉接口更接近底层相机测量数据时,模型对齐能力是否会得到改善。为此,我们提出了测量域视觉语言学习,并将其实例化为PRISM-VL,该模型结合了RAW导出的Meas.-XYZ输入、相机条件下的对齐以及曝光包围监督聚合,从而将监督从RGB代理转移到测量域观测。在质量受控的15万指令调优数据集和一个针对低光、HDR、可见性敏感和幻觉敏感案例的保留基准测试中,PRISM-VL-8B达到了0.6120的BLEU、0.4571的ROUGE-L和82.66%的LLM-Judge准确率,相比RGB Qwen3-VL-8B基线分别提高了+0.1074 BLEU、+0.1071 ROUGE-L和+4.46个百分点。这些结果表明,部分VLM对齐误差源于RGB渲染过程中丢失的信息,并且保留测量域证据可以改善多模态推理。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)主要基于经过图像信号处理(ISP)后的RGB图像进行推理。然而,ISP过程中的RGB渲染会不可避免地裁剪、抑制或量化来自传感器的原始信息,导致VLM在处理低光、高动态范围等场景时性能下降,甚至产生幻觉。因此,如何减少信息损失,提升VLM在复杂场景下的推理能力是一个关键问题。

核心思路:本文的核心思路是将视觉接口前移,使其更接近底层的相机测量数据。通过直接利用RAW数据进行视觉语言学习,可以避免RGB渲染带来的信息损失,从而提升VLM的性能。具体来说,就是让模型直接学习从原始传感器数据(Meas.-XYZ)到语言描述的映射关系。

技术框架:PRISM-VL的整体框架包含以下几个主要模块:1) RAW数据输入:使用从RAW数据导出的Meas.-XYZ作为视觉输入,保留更多原始信息。2) 相机条件对齐:引入相机参数作为条件,以适应不同相机的特性。3) 曝光包围监督聚合:利用曝光包围技术生成不同曝光度的图像,并聚合这些图像的监督信息,以提升模型的鲁棒性。4) 视觉语言模型:使用一个大型语言模型(LLM)作为骨干网络,并将其与视觉编码器连接,实现视觉和语言的联合推理。

关键创新:PRISM-VL的关键创新在于提出了测量域视觉语言学习的概念,并将其具体化为PRISM-VL模型。与传统的RGB图像输入相比,PRISM-VL直接利用RAW数据,避免了RGB渲染带来的信息损失。此外,相机条件对齐和曝光包围监督聚合进一步提升了模型的性能和鲁棒性。

关键设计:在PRISM-VL中,Meas.-XYZ数据是通过对RAW数据进行颜色空间转换得到的。相机条件对齐是通过将相机参数(如焦距、光圈等)作为额外的输入特征来实现的。曝光包围监督聚合是通过对不同曝光度的图像进行加权平均来实现的。损失函数包括语言建模损失和视觉语言对齐损失。具体网络结构使用了Qwen3-VL-8B作为backbone,并针对测量域输入进行了适配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PRISM-VL-8B在低光、HDR、可见性敏感和幻觉敏感案例的基准测试中,相比RGB Qwen3-VL-8B基线,BLEU提高了0.1074,ROUGE-L提高了0.1071,LLM-Judge准确率提高了4.46个百分点,达到了82.66%。这些显著的性能提升表明,在测量域进行视觉语言学习可以有效改善多模态推理能力。

🎯 应用场景

该研究成果可应用于各种需要高质量图像理解的场景,例如自动驾驶、安防监控、医学影像分析等。通过提升模型在低光、高动态范围等复杂环境下的性能,可以提高系统的可靠性和准确性。此外,该研究还可以促进视觉语言模型在更广泛领域的应用,例如机器人导航、智能家居等。

📄 摘要(原文)

Vision-language models typically reason over post-ISP RGB images, although RGB rendering can clip, suppress, or quantize sensor evidence before inference. We study whether grounding improves when the visual interface is moved closer to the underlying camera measurement. We formulate measurement-grounded vision-language learning and instantiate it as PRISM-VL, which combines RAW-derived Meas.-XYZ inputs, camera-conditioned grounding, and Exposure-Bracketed Supervision Aggregation for transferring supervision from RGB proxies to measurement-domain observations. Using a quality-controlled 150K instruction-tuning set and a held-out benchmark targeting low-light, HDR, visibility-sensitive, and hallucination-sensitive cases, PRISM-VL-8B reaches 0.6120 BLEU, 0.4571 ROUGE-L, and 82.66\% LLM-Judge accuracy, improving over the RGB Qwen3-VL-8B baseline by +0.1074 BLEU, +0.1071 ROUGE-L, and +4.46 percentage points. These results suggest that part of VLM grounding error arises from information lost during RGB rendering, and that preserving measurement-domain evidence can improve multimodal reasoning.