QCalEval: Benchmarking Vision-Language Models for Quantum Calibration Plot Understanding

作者: Shuxiang Cao, Zijian Zhang, Abhishek Agarwal, Grace Bratrud, Niyaz R. Beysengulov, Daniel C. Cole, Alejandro Gómez Frieiro, Elena O. Glen, Hao Hsu, Gang Huang, Raymond Jow, Greshma Shaji, Tom Lubowe, Ligeng Zhu, Luis Mantilla Calderón, Nicola Pancotti, Joel Pendleton, Brandon Severin, Charles Etienne Staub, Sara Sussman, Antti Vepsäläinen, Neel Rajeshbhai Vora, Yilun Xu, Varinia Bernales, Daniel Bowring, Elica Kyoseva, Ivan Rungger, Giulia Semeghini, Sam Stanwyck, Timothy Costa, Alán Aspuru-Guzik, Krysta Svore

分类: quant-ph, cs.CV

发布日期: 2026-04-28

💡 一句话要点

QCalEval：首个量子校准图理解的视觉-语言模型评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 量子计算 校准图 基准测试 上下文学习

📋 核心要点

现有量子计算校准依赖人工判读校准图，缺乏对视觉-语言模型在此任务上能力的系统评估。
QCalEval基准旨在评估VLM对量子校准图的理解能力，包含多种量子计算实验场景和问题类型。
实验结果表明，现有VLM在量子校准图理解方面仍有提升空间，并发布了开源模型作为参考。

📝 摘要（中文）

量子计算校准依赖于对实验数据的解读，而校准图是此任务中最通用的、人类可读的表示形式。然而，目前尚无针对视觉-语言模型（VLMs）解读校准图能力的系统性评估。我们推出了QCalEval，这是首个用于量子校准图的VLM基准：包含来自22个实验家族的87种场景类型的243个样本，涵盖超导量子比特和中性原子，并在零样本和上下文学习设置中评估六种问题类型。最佳通用零样本模型的平均得分为72.3，许多开源模型在多图像上下文学习下性能下降，而前沿的闭源模型则显著提高。一个90亿参数规模的监督微调消融实验表明，SFT提高了零样本性能，但无法弥合多模态上下文学习的差距。作为参考案例，我们发布了基于Qwen3.5-35B-A3B的开源模型NVIDIA Ising Calibration 1，其零样本平均得分为74.7。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型（VLMs）在理解量子计算校准图中存在的不足。现有的量子计算校准依赖于人工判读实验数据，特别是校准图，缺乏对VLM在此任务上性能的系统性评估和优化。这限制了量子计算校准过程的自动化和智能化。

核心思路：论文的核心思路是构建一个专门用于评估VLM理解量子校准图能力的基准数据集QCalEval。通过设计多样化的场景、问题类型和评估指标，全面衡量VLM在量子计算校准任务中的表现。同时，通过实验分析不同VLM的优缺点，为后续模型优化提供指导。

技术框架：QCalEval基准包含以下几个关键组成部分： 1. 数据集构建：收集来自22个实验家族的87种场景类型的243个校准图样本，涵盖超导量子比特和中性原子等不同量子计算平台。 2. 问题设计：设计六种问题类型，包括对校准图的基本理解、数据提取、趋势分析等，全面评估VLM的理解能力。 3. 评估指标：采用准确率、F1值等指标，量化VLM在不同问题类型上的表现。 4. 实验设置：在零样本和上下文学习设置下，评估不同VLM的性能，并进行消融实验分析关键因素的影响。

关键创新：QCalEval是首个针对量子校准图理解的VLM基准。其创新之处在于： 1. 问题导向：聚焦于量子计算校准这一特定领域，解决了通用VLM基准无法有效评估该领域模型性能的问题。 2. 数据多样性：涵盖多种量子计算实验场景和问题类型，保证了评估的全面性和客观性。 3. 基准意义：为后续研究提供了统一的评估标准和比较平台，促进了VLM在量子计算领域的应用。

关键设计：论文中涉及的关键设计包括： 1. 场景选择：选择具有代表性的量子计算实验场景，保证数据集的实用性和 relevance。 2. 问题设计：设计的问题类型既能考察VLM的基本理解能力，又能评估其在实际应用中的表现。 3. 模型选择：选择具有代表性的开源和闭源VLM进行评估，保证结果的广泛性和参考价值。 4. 评估指标：采用常用的准确率和F1值等指标，方便与其他研究进行比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，最佳通用零样本模型的平均得分为72.3，许多开源模型在多图像上下文学习下性能下降，而前沿的闭源模型则显著提高。通过90亿参数规模的监督微调消融实验，发现SFT提高了零样本性能，但无法弥合多模态上下文学习的差距。论文发布了基于Qwen3.5-35B-A3B的开源模型NVIDIA Ising Calibration 1，其零样本平均得分为74.7，为后续研究提供了参考。

🎯 应用场景

该研究成果可应用于量子计算实验结果的自动分析和校准，降低人工成本，提高实验效率。通过VLM对校准图的理解，可以辅助科学家快速发现实验中的问题，优化实验参数，加速量子计算技术的发展。此外，该基准和方法论可以推广到其他科学领域的图像数据分析。

📄 摘要（原文）

Quantum computing calibration depends on interpreting experimental data, and calibration plots provide the most universal human-readable representation for this task, yet no systematic evaluation exists of how well vision-language models (VLMs) interpret them. We introduce QCalEval, the first VLM benchmark for quantum calibration plots: 243 samples across 87 scenario types from 22 experiment families, spanning superconducting qubits and neutral atoms, evaluated on six question types in both zero-shot and in-context learning settings. The best general-purpose zero-shot model reaches a mean score of 72.3, and many open-weight models degrade under multi-image in-context learning, whereas frontier closed models improve substantially. A supervised fine-tuning ablation at the 9-billion-parameter scale shows that SFT improves zero-shot performance but cannot close the multimodal in-context learning gap. As a reference case study, we release NVIDIA Ising Calibration 1, an open-weight model based on Qwen3.5-35B-A3B that reaches 74.7 zero-shot average score.

QCalEval: Benchmarking Vision-Language Models for Quantum Calibration Plot Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理