Toward Reliable Scientific Visualization Pipeline Construction with Structure-Aware Retrieval-Augmented LLMs

📄 arXiv: 2603.16057v1 📥 PDF

作者: Guanghui Zhao, Zhe Wang, Yu Dong, Guan Li, GuiHua Shan

分类: cs.GR, cs.HC, cs.SE

发布日期: 2026-03-17


💡 一句话要点

提出结构感知检索增强的LLM框架,提升科学可视化流程构建的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学可视化 大型语言模型 检索增强生成 vtk.js 流程构建

📋 核心要点

  1. 现有方法难以利用LLM从自然语言描述生成可执行的科学可视化流程,尤其是在Web环境中,流程构建对模块缺失、错误使用和顺序错误敏感。
  2. 提出一种结构感知的检索增强生成方法,通过检索与流程结构对齐的代码示例,为LLM提供上下文指导,从而提升模块选择、参数配置和执行顺序的准确性。
  3. 实验结果表明,该方法显著提高了生成流程的可执行性,并降低了人工校正成本,证明了结构化领域知识对提升LLM生成可靠性的有效性。

📝 摘要(中文)

本文研究了基于大型语言模型(LLM)的科学可视化流程生成可靠性问题,尤其是在基于Web的环境中,可视化创作依赖于显式的代码级流程组装。针对vtk.js这一代表性的Web可视化库,提出了一种结构感知的检索增强生成工作流程,该流程提供与流程对齐的vtk.js代码示例作为上下文指导,以支持正确的模块选择、参数配置和执行顺序。通过多个多阶段科学可视化任务和不同的LLM评估了所提出的工作流程,使用流程可执行性和人工校正工作量来衡量可靠性。为此,引入了校正成本作为获得有效流程所需的人工干预量的度量。结果表明,结构化的、特定领域的上下文显著提高了流程的可执行性并降低了校正成本。此外,还提供了一个交互式分析界面,以支持人工在环的检查和对生成的可视化流程的系统评估。

🔬 方法详解

问题定义:论文旨在解决利用大型语言模型(LLM)自动构建可靠的科学可视化流程的问题。现有的方法在将自然语言描述转化为可执行的可视化流程时,容易出现模块选择错误、参数配置不当以及执行顺序错误等问题,尤其是在依赖代码级流程组装的Web环境中,这些问题会导致生成的流程无法执行,需要大量的人工干预进行校正。

核心思路:论文的核心思路是利用结构化的、领域特定的知识来指导LLM的生成过程。具体而言,通过检索与目标流程结构对齐的vtk.js代码示例,作为LLM的上下文信息,从而帮助LLM更好地理解可视化流程的构建规则和约束,减少生成错误的可能性。这种方法的核心在于将领域知识融入到LLM的生成过程中,使其能够更好地理解和遵循可视化流程的构建规范。

技术框架:该方法采用检索增强生成(Retrieval-Augmented Generation, RAG)的框架。首先,根据输入的自然语言描述,检索相关的vtk.js代码示例,这些示例按照可视化流程的结构进行组织和索引。然后,将检索到的代码示例作为上下文信息,输入到LLM中,LLM根据这些上下文信息生成vtk.js代码,构建可视化流程。最后,对生成的流程进行评估,并计算人工校正成本。

关键创新:该方法最重要的技术创新点在于结构感知的检索策略。传统的RAG方法通常只关注语义相似性,而忽略了可视化流程的结构信息。该方法通过对代码示例进行结构化组织,并根据目标流程的结构进行检索,从而能够更准确地提供与目标流程相关的上下文信息。这种结构感知的检索策略能够显著提高LLM生成流程的准确性和可靠性。

关键设计:论文的关键设计包括:1) 如何对vtk.js代码示例进行结构化组织,以便进行高效的检索;2) 如何设计检索策略,使其能够根据目标流程的结构检索相关的代码示例;3) 如何评估生成流程的质量,并量化人工校正成本。具体的技术细节(如参数设置、损失函数、网络结构等)在论文中没有详细描述,属于未知的实现细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的结构感知检索增强方法显著提高了可视化流程的可执行性,并降低了人工校正成本。具体数据未在摘要中给出,但强调了结构化领域知识对提升LLM生成可靠性的重要作用。交互式分析界面也为人工干预和系统评估提供了便利。

🎯 应用场景

该研究成果可应用于自动化科学可视化流程构建,降低可视化开发的门槛,加速科研成果的呈现和交流。例如,科研人员可以通过自然语言描述快速生成复杂的可视化流程,无需深入了解底层代码细节。此外,该方法还可用于教育领域,帮助学生更好地理解科学可视化原理。

📄 摘要(原文)

Scientific visualization pipelines encode domain-specific procedural knowledge with strict execution dependencies, making their construction sensitive to missing stages, incorrect operator usage, or improper ordering. Thus, generating executable scientific visualization pipelines from natural-language descriptions remains challenging for large language models, particularly in web-based environments where visualization authoring relies on explicit code-level pipeline assembly. In this work, we investigate the reliability of LLM-based scientific visualization pipeline generation, focusing on vtk.js as a representative web-based visualization library. We propose a structure-aware retrieval-augmented generation workflow that provides pipeline-aligned vtk.js code examples as contextual guidance, supporting correct module selection, parameter configuration, and execution order. We evaluate the proposed workflow across multiple multi-stage scientific visualization tasks and LLMs, measuring reliability in terms of pipeline executability and human correction effort. To this end, we introduce correction cost as metric for the amount of manual intervention required to obtain a valid pipeline. Our results show that structured, domain-specific context substantially improves pipeline executability and reduces correction cost. We additionally provide an interactive analysis interface to support human-in-the-loop inspection and systematic evaluation of generated visualization pipelines.