PolarVLM: Bridging the Semantic-Physical Gap in Vision-Language Models

📄 arXiv: 2605.07574v1 📥 PDF

作者: Yuliang Li, Chu Zhou, Heng Guo, Boxin Shi, Imari Sato, Zhanyu Ma

分类: cs.CV

发布日期: 2026-05-08

备注: 23 pages, 12 figures, including appendices


💡 一句话要点

提出PolarVLM框架,通过融合偏振物理信息解决视觉语言模型在反射与透明场景下的语义理解难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 偏振成像 多模态融合 物理感知 指令微调 计算机视觉

📋 核心要点

  1. 现有VLM依赖RGB输入,在面对反射、透明物体等复杂光学场景时,因缺乏物理信息导致严重的语义理解偏差。
  2. 提出PolarVLM框架,通过双流架构融合偏振物理参数,并配套构建了包含7.5万条指令数据的PolarVQA基准。
  3. 实验证明该方法在反射识别与玻璃计数等任务中性能提升显著,整体较RGB基线提升25.4%,实现了物理感知的语义推理。

📝 摘要(中文)

主流视觉语言模型(VLMs)因RGB输入的固有局限,在处理反射和透明物体等光学模糊场景时表现不佳。偏振成像技术虽能通过物理参数解析这些模糊性,但现有方法受限于固定格式输出,难以进行开放式推理。为弥合语义与物理之间的鸿沟,本文提出了PolarVLM,这是首个将偏振物理参数整合进VLM的多模态框架。通过双流架构和渐进式两阶段训练策略,PolarVLM在保留通用视觉能力的同时,有效避免了物理层面的误判。此外,本文构建了首个偏振感知VQA基准PolarVQA,包含7.5万个针对反射和透明场景的物理基础指令微调对。实验表明,PolarVLM在五项评估任务中较RGB基线整体提升25.4%,在反射识别和玻璃计数任务上分别取得了26.6%和34.0%的显著增益,成功解锁了物理感知语义理解能力。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型在处理反射、折射及透明物体时,因RGB图像缺乏深度与材质物理属性而产生的“光学模糊”问题,即语义与物理信息脱节的挑战。

核心思路:引入偏振成像技术,将偏振度(DoP)、偏振角(AoP)等物理参数作为补充模态,通过多模态融合赋予VLM感知物体物理属性的能力,从而在推理阶段消除光学干扰。

技术框架:采用双流架构,分别处理RGB图像与偏振图像特征。通过渐进式两阶段训练策略:第一阶段进行偏振特征对齐,第二阶段进行指令微调,确保模型既能理解物理参数,又不丢失原有的通用视觉语义能力。

关键创新:首次将偏振物理参数引入大模型架构,构建了物理感知与语义理解的桥梁;提出了PolarVQA数据集,填补了偏振感知领域缺乏高质量指令微调数据的空白。

关键设计:设计了专门的偏振特征编码器以提取物理参数特征,并采用特定的融合模块将偏振信息注入到视觉编码器中,同时配合针对物理属性的指令微调损失函数,优化模型对反射与透明材质的判别能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PolarVLM在五项核心评估任务中表现优异,整体性能较RGB基线提升25.4%。在极具挑战性的反射识别任务中提升26.6%,在玻璃计数任务中提升高达34.0%。实验结果充分证明了引入偏振物理参数能有效解决光学模糊问题,使模型具备了超越传统RGB输入的物理感知推理能力。

🎯 应用场景

该研究在自动驾驶、机器人视觉、工业检测及增强现实领域具有重要价值。在自动驾驶中,可有效识别玻璃幕墙或积水路面带来的虚假障碍物;在机器人领域,可提升对透明容器的抓取精度;在工业检测中,可精准识别表面划痕与反射缺陷,显著提升复杂环境下的感知鲁棒性。

📄 摘要(原文)

Mainstream vision-language models (VLMs) fundamentally struggle with severe optical ambiguities, such as reflections and transparent objects, due to the inherent limitations of standard RGB inputs. While polarization imaging captures polarimetric physical parameters that resolve these ambiguities, existing methods are constrained by fixed-format outputs and remain isolated from open-ended reasoning. To bridge this semantic-physical gap, we introduce PolarVLM, the first multimodal framework integrating polarimetric physical parameters into VLMs. By employing a dual-stream architecture and a progressive two-stage training strategy, PolarVLM effectively prevents physical misinterpretations while preserving general visual abilities. Complementing our architecture, we construct PolarVQA, the first benchmark for polarization-aware VQA, featuring 75K physics-grounded instruction-tuning pairs targeting reflective and transparent scenes. Experiments show that PolarVLM surpasses the RGB baseline by 25.4% overall across five evaluation tasks, with remarkable gains of 26.6% in reflection recognition and 34.0% in glass counting, successfully unlocking physics-aware semantic understanding.