FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation

📄 arXiv: 2505.24258v1 📥 PDF

作者: Vishal Pallagani, Nitin Gupta, John Aydin, Biplav Srivastava

分类: cs.AI

发布日期: 2025-05-30


💡 一句话要点

提出FABLE基准以评估大型语言模型的数据流推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据流分析 大型语言模型 程序性任务 基准评估 推理能力 机器学习 软件工程

📋 核心要点

  1. 现有大型语言模型在程序性任务中的数据流推理能力缺乏系统评估,导致其应用效果不佳。
  2. FABLE基准通过适配经典数据流分析方法,提供了一种评估LLMs数据流理解的新方式,涵盖多个真实领域。
  3. 实验结果表明,推理模型在准确性上表现优越,但推理速度较慢,而通用模型和代码特定模型的表现接近随机水平。

📝 摘要(中文)

理解数据如何移动、转化和持久化,即数据流,是进行程序性任务推理的基础。尽管大型语言模型(LLMs)在自然语言和编程语言中表现出流畅性,但它们在程序性任务中的数据流推理能力尚未得到系统评估。本文提出了FABLE,一个可扩展的基准,旨在通过结构化的程序文本评估LLMs对数据流的理解。FABLE适配了八种经典的数据流分析方法,并在烹饪食谱、旅行路线和自动化计划三个真实领域中进行实例化。基准包含2400个问答对,评估了三种类型的LLMs,结果显示推理模型的准确性更高,但推理速度比其他模型慢20倍以上。FABLE为系统评估数据流推理提供了首个诊断基准,并为开发更强的程序理解模型提供了见解。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在程序性任务中对数据流推理能力的评估不足,现有方法未能系统性地检验这一能力。

核心思路:FABLE基准通过引入八种经典数据流分析方法,结合结构化程序文本,构建了一个全面的评估框架,以检测LLMs对数据流的理解。

技术框架:FABLE的整体架构包括数据流分析模块、领域实例化模块和问答生成模块,分别负责分析方法的实现、不同领域的应用和问答对的生成。

关键创新:FABLE是首个系统性评估数据流推理的基准,结合了多个真实世界的应用场景,填补了现有评估工具的空白。

关键设计:基准包含2400个问答对,针对每个领域-分析组合提供100个示例,评估时采用五次采样的多数投票机制,确保结果的可靠性。实验中使用了三种不同类型的LLMs进行对比。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,推理模型在数据流推理任务中的准确性显著高于其他模型,尽管其推理速度比通用模型慢20倍以上。通用模型和代码特定模型的表现接近随机水平,表明FABLE基准的有效性和必要性。

🎯 应用场景

FABLE基准的潜在应用领域包括教育、软件开发和自动化系统等。通过评估大型语言模型在数据流推理方面的能力,研究者和开发者可以更好地理解和改进模型的程序性理解能力,从而推动智能系统的进步。

📄 摘要(原文)

Understanding how data moves, transforms, and persists, known as data flow, is fundamental to reasoning in procedural tasks. Despite their fluency in natural and programming languages, large language models (LLMs), although increasingly being applied to decisions with procedural tasks, have not been systematically evaluated for their ability to perform data-flow reasoning. We introduce FABLE, an extensible benchmark designed to assess LLMs' understanding of data flow using structured, procedural text. FABLE adapts eight classical data-flow analyses from software engineering: reaching definitions, very busy expressions, available expressions, live variable analysis, interval analysis, type-state analysis, taint analysis, and concurrency analysis. These analyses are instantiated across three real-world domains: cooking recipes, travel routes, and automated plans. The benchmark includes 2,400 question-answer pairs, with 100 examples for each domain-analysis combination. We evaluate three types of LLMs: a reasoning-focused model (DeepSeek-R1 8B), a general-purpose model (LLaMA 3.1 8B), and a code-specific model (Granite Code 8B). Each model is tested using majority voting over five sampled completions per prompt. Results show that the reasoning model achieves higher accuracy, but at the cost of over 20 times slower inference compared to the other models. In contrast, the general-purpose and code-specific models perform close to random chance. FABLE provides the first diagnostic benchmark to systematically evaluate data-flow reasoning and offers insights for developing models with stronger procedural understanding.