SciVisAgentBench: A Benchmark for Evaluating Scientific Data Analysis and Visualization Agents
作者: Kuangshi Ai, Haichao Miao, Kaiyuan Tang, Nathaniel Gorski, Jianxin Sun, Guoxi Liu, Helgi I. Ingolfsson, David Lenz, Hanqi Guo, Hongfeng Yu, Teja Leburu, Michael Molash, Bei Wang, Tom Peterka, Chaoli Wang, Shusen Liu
分类: cs.AI, cs.GR, cs.HC
发布日期: 2026-03-31
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SciVisAgentBench,用于评估科学数据分析与可视化Agent的基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学可视化 Agent评估 基准测试 大型语言模型 多模态评估
📋 核心要点
- 现有科学可视化Agent评估缺乏统一、可复现的基准,难以在真实多步骤分析场景下有效评估。
- SciVisAgentBench构建了一个多维度分类基准,包含108个专家案例,覆盖多种科学可视化场景。
- 该基准采用多模态评估流程,结合LLM判断和确定性评估器,实现可靠的Agent性能评估。
📝 摘要(中文)
大型语言模型(LLMs)的最新进展使得能够将自然语言意图转化为可执行的科学可视化(SciVis)任务的Agent系统成为可能。尽管进展迅速,但社区缺乏一个有原则且可复现的基准,用于在现实的、多步骤分析环境中评估这些新兴的SciVis Agent。我们提出了SciVisAgentBench,这是一个全面且可扩展的基准,用于评估科学数据分析和可视化Agent。我们的基准基于一个结构化的分类法,涵盖四个维度:应用领域、数据类型、复杂程度和可视化操作。它目前包含108个由专家精心设计的案例,涵盖了各种SciVis场景。为了实现可靠的评估,我们引入了一个多模态的、以结果为中心的评估流程,该流程结合了基于LLM的判断与确定性评估器,包括基于图像的指标、代码检查器、基于规则的验证器和特定于案例的评估器。我们还与12位SciVis专家进行了一项有效性研究,以检查人类和LLM判断者之间的一致性。使用此框架,我们评估了具有代表性的SciVis Agent和通用编码Agent,以建立初始基线并揭示能力差距。SciVisAgentBench被设计为一个动态基准,以支持系统比较、诊断失败模式并推动Agentic SciVis的进步。该基准可在https://scivisagentbench.github.io/上找到。
🔬 方法详解
问题定义:现有科学可视化Agent的评估缺乏一个标准化的、可复现的基准。这使得在实际的多步骤分析场景中,难以对这些Agent进行有效的评估和比较。现有的评估方法往往是零散的,缺乏系统性和全面性,无法准确地反映Agent在复杂任务中的表现。
核心思路:SciVisAgentBench的核心思路是构建一个全面且可扩展的基准,该基准能够覆盖各种科学可视化场景,并提供可靠的评估方法。通过结构化的分类法,将SciVis任务分解为多个维度,包括应用领域、数据类型、复杂程度和可视化操作,从而实现对Agent能力的全面评估。
技术框架:SciVisAgentBench的整体框架包括以下几个主要模块:1) 案例库:包含108个由专家设计的SciVis案例,涵盖不同的应用领域和数据类型。2) 评估流程:采用多模态的评估流程,结合LLM-based judging和确定性评估器。3) 确定性评估器:包括基于图像的指标、代码检查器、基于规则的验证器和特定于案例的评估器。4) LLM判断:使用LLM来评估Agent生成的代码和可视化结果,并与人类专家的判断进行比较。
关键创新:SciVisAgentBench的关键创新在于其综合性的基准设计和多模态的评估流程。与以往的评估方法相比,SciVisAgentBench更加全面、系统和可靠。通过结合LLM判断和确定性评估器,能够更准确地评估Agent在复杂SciVis任务中的表现。此外,SciVisAgentBench还具有可扩展性,可以方便地添加新的案例和评估指标。
关键设计:SciVisAgentBench的关键设计包括:1) 四维度分类法:应用领域、数据类型、复杂程度和可视化操作。2) 多模态评估流程:LLM判断与确定性评估器相结合。3) 案例库:108个专家设计的SciVis案例。4) 评估指标:包括基于图像的指标(如PSNR、SSIM)、代码检查器、基于规则的验证器和特定于案例的评估器。
🖼️ 关键图片
📊 实验亮点
通过对代表性的SciVis Agent和通用编码Agent进行评估,SciVisAgentBench建立了初始基线,并揭示了现有Agent的能力差距。有效性研究表明,LLM判断与人类专家的判断具有较高的一致性。该基准为系统比较、诊断失败模式和推动Agentic SciVis的进步提供了有力支持。
🎯 应用场景
SciVisAgentBench可用于评估和比较不同的科学数据分析与可视化Agent,推动Agentic SciVis领域的发展。它能够帮助研究人员诊断Agent的失败模式,并指导Agent的设计和优化。此外,该基准还可以用于教育和培训,帮助学生和从业人员更好地理解和应用科学可视化技术。
📄 摘要(原文)
Recent advances in large language models (LLMs) have enabled agentic systems that translate natural language intent into executable scientific visualization (SciVis) tasks. Despite rapid progress, the community lacks a principled and reproducible benchmark for evaluating these emerging SciVis agents in realistic, multi-step analysis settings. We present SciVisAgentBench, a comprehensive and extensible benchmark for evaluating scientific data analysis and visualization agents. Our benchmark is grounded in a structured taxonomy spanning four dimensions: application domain, data type, complexity level, and visualization operation. It currently comprises 108 expert-crafted cases covering diverse SciVis scenarios. To enable reliable assessment, we introduce a multimodal outcome-centric evaluation pipeline that combines LLM-based judging with deterministic evaluators, including image-based metrics, code checkers, rule-based verifiers, and case-specific evaluators. We also conduct a validity study with 12 SciVis experts to examine the agreement between human and LLM judges. Using this framework, we evaluate representative SciVis agents and general-purpose coding agents to establish initial baselines and reveal capability gaps. SciVisAgentBench is designed as a living benchmark to support systematic comparison, diagnose failure modes, and drive progress in agentic SciVis. The benchmark is available at https://scivisagentbench.github.io/.