State Beyond Appearance: Diagnosing and Improving State Consistency in Dial-Based Measurement Reading
作者: Yuanze Hu, Gen Li, Yuqin Lan, Qingchen Yu, Zhichao Yang, Junwei Jing, Zhaoxin Fan, Xiaotie Deng
分类: cs.CV
发布日期: 2026-04-29
💡 一句话要点
提出TriSCA框架,提升MLLM在表盘读数任务中的状态一致性,解决视角和光照变化下的性能下降问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 表盘读数 状态一致性 表示学习 元数据引导
📋 核心要点
- 现有MLLM在表盘读数任务中精度不足,且易受视角和光照变化的影响,即使表盘状态不变。
- 论文提出TriSCA框架,通过三级状态一致对齐,使模型学习到表盘读数的内在状态几何结构。
- 实验表明,TriSCA在受控和真实世界基准测试中均表现出色,验证了其有效性。
📝 摘要(中文)
多模态大型语言模型(MLLMs)在通用多模态任务上取得了显著进展,但在基于表盘的测量读数方面仍然表现脆弱。本文通过受控的基准测试和特征空间探测研究了这个问题,表明当前的MLLM不仅在表盘读数方面精度不理想,而且在底层表盘状态保持不变的情况下,视角和光照的变化也会导致性能急剧下降。我们的探测分析进一步表明,外观变化下的同状态样本没有一致地聚类,而相邻状态未能保持连续表盘值所隐含的局部结构。这些发现表明,现有的MLLM在很大程度上忽略了表盘测量任务的内在状态几何结构,而是依赖于表面的外观线索。受此诊断的启发,我们提出了TriSCA,一个用于基于表盘的测量读数的三级状态一致对齐框架。具体来说,TriSCA包括状态距离感知的表示对齐、元数据引导的观察到状态的监督以及状态感知的目标对齐。大量的消融研究和在受控时钟和仪表基准上的评估实验,以及在外部真实世界基准上的评估,证明了我们方法的有效性。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在基于表盘的测量读数任务中表现出的脆弱性问题。现有方法在视角和光照变化下性能显著下降,表明模型过度依赖表面的视觉特征,而忽略了表盘状态的内在几何结构。这种依赖导致模型无法准确理解和泛化表盘读数。
核心思路:论文的核心思路是通过三级状态一致对齐(TriSCA)框架,强制模型学习表盘读数的内在状态几何结构,从而提高模型在不同视角和光照条件下的鲁棒性。TriSCA旨在使模型能够识别和区分不同的表盘状态,并保持状态之间的连续性和一致性。
技术框架:TriSCA框架包含三个主要模块: 1. 状态距离感知的表示对齐:通过拉近相似状态的表示,推远不同状态的表示,使模型学习到状态之间的距离关系。 2. 元数据引导的观察到状态的监督:利用元数据(例如表盘类型、刻度范围等)作为先验知识,引导模型将视觉观察与正确的表盘状态对齐。 3. 状态感知的目标对齐:设计状态感知的损失函数,使模型在训练过程中更加关注状态的准确性,而不是仅仅依赖于表面的视觉特征。
关键创新:TriSCA的关键创新在于其三级状态一致对齐策略,它不仅关注单个状态的识别,还关注状态之间的关系和一致性。与现有方法相比,TriSCA能够更好地捕捉表盘读数的内在几何结构,从而提高模型的鲁棒性和泛化能力。
关键设计: 1. 状态距离度量:使用余弦相似度或欧氏距离来衡量状态之间的距离。 2. 元数据编码:将元数据编码为向量,并将其与视觉特征融合。 3. 状态感知损失函数:设计损失函数,鼓励模型预测的状态与真实状态之间的距离尽可能小,同时惩罚预测状态与相邻状态之间的距离过大。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TriSCA在受控的时钟和仪表基准测试中显著优于现有方法。在外部真实世界基准测试中,TriSCA也取得了最佳性能,验证了其在实际应用中的有效性。消融实验进一步证明了TriSCA框架中各个模块的贡献。
🎯 应用场景
该研究成果可应用于工业自动化、智能仪表、机器人视觉等领域。例如,在工业环境中,机器人可以通过视觉识别仪表读数,实现自动化监控和控制。在智能家居中,可以用于读取水表、电表等数据,实现智能抄表和能源管理。该研究有助于提高自动化系统的智能化水平和可靠性。
📄 摘要(原文)
Multimodal large language models (MLLMs) have achieved impressive progress on general multimodal tasks, yet they remain brittle on dial-based measurement reading. In this paper, we study this problem through controlled benchmarks and feature-space probing, and show that current MLLMs not only achieve unsatisfactory accuracy on dial-based readout, but also suffer sharp performance drops under viewpoint and illumination changes even when the underlying dial state remains fixed. Our probing analysis further reveals that same-state samples under appearance variation are not consistently clustered, while neighboring states fail to preserve the local structure implied by continuous dial values. These findings suggest that existing MLLMs largely ignore the intrinsic state geometry of dial measurement tasks and instead rely on superficial appearance cues. Motivated by this diagnosis, we propose TriSCA, a tri-level state-consistent alignment framework for dial-based measurement reading. Specifically, TriSCA consists of state-distance-aware representation alignment, metadata-grounded observation-to-state supervision, and state-aware objective alignment. Extensive ablation studies and evaluation experiments on controlled clock and gauge benchmarks, together with evaluation on an external real-world benchmark, demonstrate the effectiveness of our method.