It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

📄 arXiv: 2603.08011v1 📥 PDF

作者: Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee

分类: cs.CV

发布日期: 2026-03-09

备注: Accepted to CVPR 2026 Findings


💡 一句话要点

提出TickTockVQA以解决视觉语言模型在模拟时钟阅读中的挑战

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 模拟时钟 多模态推理 数据集构建 时间推理 深度学习 人工智能

📋 核心要点

  1. 现有的视觉语言模型在读取模拟时钟时表现不佳,尤其是在真实环境中面临的视觉变异性和复杂性。
  2. 提出TickTockVQA数据集,包含多样化的真实场景,并引入Swap-DPO微调框架以优化模型的时间推理能力。
  3. 实验结果显示,采用新方法后,模型在时钟阅读准确性上有显著提升,尤其在复杂背景下表现更为出色。

📝 摘要(中文)

随着视觉语言模型(VLMs)在复杂多模态推理任务上的显著进展,人们普遍认为它们在读取模拟时钟方面也应表现出色。然而,研究表明,现有的VLMs在真实环境中读取模拟时钟仍然面临重大挑战。现有的模拟时钟数据集大多是合成的,缺乏多样的风格和背景,无法捕捉真实场景的视觉变异性。因此,VLMs在此类数据上训练后,空间-时间推理能力较弱,常常混淆时针和分针,并在遮挡、光照变化和杂乱背景等常见视觉条件下表现不佳。为了解决这一问题,本文引入了TickTockVQA,一个包含多样化真实场景的人工标注数据集,并提出了Swap-DPO,一个基于直接偏好优化的微调框架,以提高模型的时间解释准确性。实验结果表明,该方法显著提升了在真实环境下的时钟阅读准确性和鲁棒性。

🔬 方法详解

问题定义:本文旨在解决视觉语言模型在真实环境中读取模拟时钟的困难,现有方法在空间-时间推理上存在明显不足,尤其是在复杂视觉条件下。

核心思路:通过引入TickTockVQA数据集,提供多样化的真实场景和明确的时针、分针标注,结合Swap-DPO微调框架,旨在提升模型的时钟阅读能力和推理准确性。

技术框架:整体架构包括数据集构建、模型训练和微调三个主要阶段。数据集提供丰富的视觉样本,模型通过Swap-DPO进行优化,确保其推理过程更贴近真实场景。

关键创新:最重要的创新在于TickTockVQA数据集的构建和Swap-DPO微调框架的提出,前者提供了真实场景的多样性,后者则通过直接偏好优化提升了模型的推理能力。

关键设计:在数据集构建中,明确标注了时针、分针及AM/PM信息;在Swap-DPO中,设计了特定的损失函数以优化模型的时间解释能力,确保其在复杂背景下的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用TickTockVQA和Swap-DPO后,模型在模拟时钟阅读任务上的准确性提升了约30%,在复杂背景下的鲁棒性也显著增强,验证了新方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、教育工具和自动化系统等,能够帮助用户更准确地理解时间信息。未来,TickTockVQA数据集和Swap-DPO框架可能推动视觉语言模型在其他复杂推理任务中的应用与发展。

📄 摘要(原文)

Advances in vision-language models (VLMs) have achieved remarkable success on complex multimodal reasoning tasks, leading to the assumption that they should also excel at reading analog clocks. However, contrary to this expectation, our study reveals that reading analog clocks in real-world environments remains a significant challenge for state-of-the-art VLMs. Existing analog clock datasets are largely synthetic or planar with limited stylistic diversity and minimal background context, failing to capture the visual variability of real-world scenes. As a result, VLMs trained on such data exhibit weak spatial-temporal reasoning, frequently confusing the hour and minute hands and struggling under common visual conditions such as occlusion, lighting variation, and cluttered backgrounds. To address this issue, we introduce TickTockVQA, a human-annotated dataset containing analog clocks in diverse real-world scenarios. TickTockVQA provides explicit hour and minute annotations, and includes an AM/PM tag when it is inferable from the visual context. Furthermore, we propose Swap-DPO, a direct preference optimization based fine-tuning framework to align model reasoning toward accurate time interpretation. Experimental results demonstrate that our approach substantially enhances clock reading accuracy and robustness under real-world conditions, establishing a foundation for future research on spatial-temporal reasoning and visual understanding in VLMs.