StarFlow: Generating Structured Workflow Outputs From Sketch Images

📄 arXiv: 2503.21889v2 📥 PDF

作者: Patrice Bechard, Chao Wang, Amirhossein Abaskohi, Juan Rodriguez, Christopher Pal, David Vazquez, Spandana Gella, Sai Rajeswar, Perouz Taslakian

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-03-27 (更新: 2026-01-12)

备注: To be presented at EACL2026


💡 一句话要点

StarFlow:利用视觉-语言模型从草图生成结构化工作流

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工作流生成 视觉-语言模型 草图识别 自动化 企业应用 流程图 结构化输出

📋 核心要点

  1. 现有工作流构建依赖手动配置,过程复杂且效率低下,难以适应快速变化的业务需求。
  2. StarFlow框架利用视觉-语言模型,直接从草图生成结构化工作流,简化了工作流创建流程。
  3. 通过在多样化数据集上微调视觉-语言模型,StarFlow在结构化工作流生成任务上显著优于现有大型模型。

📝 摘要(中文)

工作流是企业平台自动化的基础组成部分,能够协调任务、数据处理和系统集成。尽管应用广泛,构建工作流仍然复杂,通常需要通过低代码平台或可视化编程工具进行手动配置。为了简化这一过程,我们探索使用生成式基础模型,特别是视觉-语言模型(VLMs),从视觉输入自动生成结构化工作流。将手绘草图或计算机生成的图表转换为可执行的工作流具有挑战性,因为自由形式绘图具有歧义性,图表样式各异,并且难以从视觉元素推断执行逻辑。为了解决这个问题,我们提出了StarFlow,一个利用视觉-语言模型从草图生成结构化工作流输出的框架。我们整理了一个多样化的工作流图数据集——包括合成的、手动标注的和真实世界的样本——以实现稳健的训练和评估。我们对多个视觉-语言模型进行了微调和基准测试,进行了一系列消融研究,以分析我们方法的优势和局限性。结果表明,微调显著增强了结构化工作流的生成,优于大型视觉-语言模型。

🔬 方法详解

问题定义:论文旨在解决从草图图像自动生成结构化工作流的问题。现有方法主要依赖人工配置或低代码平台,效率低且易出错。手绘草图的模糊性、图表风格的多样性以及从视觉元素推断执行逻辑的困难是主要痛点。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)的强大能力,将草图图像作为输入,直接生成结构化的工作流描述。通过在大量工作流图数据集上进行微调,使VLM能够理解草图中的语义信息,并将其转化为可执行的工作流。

技术框架:StarFlow框架主要包含数据收集与处理、模型微调和工作流生成三个阶段。首先,构建包含合成数据、人工标注数据和真实数据的多样化工作流图数据集。然后,选择合适的VLM作为基础模型,并在构建的数据集上进行微调,使其适应工作流生成任务。最后,将草图图像输入微调后的VLM,生成结构化的工作流描述。

关键创新:该论文的关键创新在于提出了一种基于VLM的端到端工作流生成框架,可以直接从草图图像生成结构化工作流。与传统方法相比,该方法无需人工干预,大大简化了工作流创建流程。此外,通过构建多样化的数据集并进行微调,显著提升了VLM在工作流生成任务上的性能。

关键设计:论文的关键设计包括:1) 构建包含多种类型的工作流图数据集,以提高模型的泛化能力;2) 选择合适的VLM作为基础模型,并根据工作流生成任务的特点进行微调;3) 设计合适的损失函数,以优化模型在结构化工作流生成方面的性能。具体的模型选择和参数设置在论文中没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过在多样化的工作流图数据集上进行微调,StarFlow框架能够显著提升视觉-语言模型在结构化工作流生成任务上的性能,优于直接使用大型视觉-语言模型。具体的性能提升数据和对比基线在摘要中没有给出,属于未知信息。

🎯 应用场景

StarFlow具有广泛的应用前景,可用于企业自动化、业务流程管理、软件开发等领域。通过将手绘草图或流程图直接转化为可执行的工作流,可以显著提高工作效率,降低开发成本,并加速数字化转型。未来,该技术有望应用于更复杂的自动化场景,例如智能制造、智慧城市等。

📄 摘要(原文)

Workflows are a fundamental component of automation in enterprise platforms, enabling the orchestration of tasks, data processing, and system integrations. Despite being widely used, building workflows can be complex, often requiring manual configuration through low-code platforms or visual programming tools. To simplify this process, we explore the use of generative foundation models, particularly vision-language models (VLMs), to automatically generate structured workflows from visual inputs. Translating hand-drawn sketches or computer-generated diagrams into executable workflows is challenging due to the ambiguity of free-form drawings, variations in diagram styles, and the difficulty of inferring execution logic from visual elements. To address this, we introduce StarFlow, a framework for generating structured workflow outputs from sketches using vision-language models. We curate a diverse dataset of workflow diagrams -- including synthetic, manually annotated, and real-world samples -- to enable robust training and evaluation. We finetune and benchmark multiple vision-language models, conducting a series of ablation studies to analyze the strengths and limitations of our approach. Our results show that finetuning significantly enhances structured workflow generation, outperforming large vision-language models on this task.