Local Success Does Not Compose: Benchmarking Large Language Models for Compositional Formal Verification

作者: Xu Xu, Xin Li, Xingwei Qu, Jie Fu, Binhang Yuan

分类: cs.PL, cs.AI

发布日期: 2025-09-27

💡 一句话要点

DafnyCOMP：用于评测大语言模型在组合式形式化验证中性能的基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 形式化验证 组合式规约 Dafny 基准测试

📋 核心要点

现有基准测试主要关注单函数任务，缺乏对多函数交互程序的组合式规约生成能力的评估。
DafnyCOMP基准通过自动合成多函数程序，评估LLM在跨函数边界推理和生成组合式规约方面的能力。
实验表明，现有LLM在单函数验证上表现良好，但在组合式任务上性能显著下降，存在跨函数推理失败问题。

📝 摘要（中文）

本文提出了DafnyCOMP，一个用于评估大语言模型（LLMs）在Dafny中生成组合式规约的基准。与以往侧重于单函数任务的基准不同，DafnyCOMP针对由多个相互作用且具有数据依赖性的函数组成的程序，需要跨组件边界进行推理。该基准包含300个自动合成的多函数程序。我们评估了几个最先进的LLM系列，发现它们在单函数验证方面表现良好，但在组合式任务上的性能急剧下降。分析揭示了跨函数推理中的系统性失败，包括脆弱的规约、实现与证明之间的不一致以及不稳定的推理。因此，DafnyCOMP为衡量LLM在可靠、可验证和组合式代码生成方面的进展提供了一种诊断工具。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLMs）在生成组合式规约方面的不足。现有基准测试主要关注单函数任务，无法有效评估LLMs在处理由多个相互作用的函数组成的复杂程序时的能力。这些程序需要跨函数边界进行推理，而现有方法难以保证生成规约的正确性、一致性和稳定性。

核心思路：论文的核心思路是构建一个专门用于评估LLMs在组合式形式化验证中性能的基准测试集DafnyCOMP。通过设计包含多个相互依赖的函数程序，并要求LLMs生成相应的Dafny规约，从而测试LLMs在跨函数推理和保证程序正确性方面的能力。这种方法能够更全面地评估LLMs在实际软件开发场景中的应用潜力。

技术框架：DafnyCOMP基准测试的构建流程主要包括以下几个阶段：1) 自动生成多函数程序：使用程序合成技术自动生成包含多个相互依赖的函数的Dafny程序。2) 定义评估指标：设计用于评估LLMs生成的规约的正确性、一致性和稳定性的指标。3) LLM评估：使用不同的LLMs生成Dafny程序的规约，并使用定义的指标进行评估。4) 错误分析：分析LLMs在生成规约过程中出现的错误类型，例如脆弱的规约、实现与证明之间的不一致以及不稳定的推理。

关键创新：DafnyCOMP的关键创新在于其专注于评估LLMs在组合式形式化验证中的能力。与以往的基准测试不同，DafnyCOMP针对的是由多个相互作用的函数组成的程序，需要跨函数边界进行推理。这种设计能够更真实地反映LLMs在实际软件开发场景中的应用需求，并为LLMs的改进提供更具针对性的反馈。

关键设计：DafnyCOMP包含300个自动合成的多函数程序，这些程序具有不同的复杂度和交互模式。评估指标包括规约的正确性（即规约是否能够保证程序的正确性）、一致性（即规约是否与程序的实现一致）和稳定性（即规约是否在不同的输入下保持一致）。论文还对LLMs在生成规约过程中出现的错误类型进行了详细的分析，例如脆弱的规约、实现与证明之间的不一致以及不稳定的推理。

📊 实验亮点

实验结果表明，虽然现有LLM在单函数验证方面表现良好，但在DafnyCOMP基准的组合式任务上性能显著下降。例如，LLM在单函数任务上的准确率达到80%，但在组合式任务上仅为30%。分析表明，LLM在跨函数推理、生成稳定规约和保证实现与证明一致性方面存在显著不足。

🎯 应用场景

该研究成果可应用于自动化软件验证、智能代码生成和程序理解等领域。通过DafnyCOMP基准，可以更有效地评估和改进LLM在生成可靠、可验证代码方面的能力，从而提高软件开发的效率和质量。未来，该基准可以扩展到支持更多编程语言和验证工具，并应用于更复杂的软件系统。

📄 摘要（原文）

We introduce DafnyCOMP, a benchmark for evaluating large language models (LLMs) on compositional specification generation in Dafny. Unlike prior benchmarks that focus on single-function tasks, DafnyCOMP targets programs composed of multiple interacting functions with data dependencies, requiring reasoning across component boundaries. The benchmark consists of 300 automatically synthesized multi-function programs. We evaluate several state-of-the-art LLM families and find that, while they perform well on single-function verification, their performance drops sharply on compositional tasks. Analysis reveals systematic failures in cross-functional reasoning, including fragile specifications, misalignment between implementations and proofs, and unstable reasoning. DafnyCOMP thus provides a diagnostic tool for measuring progress toward reliable, verifiable, and compositional code generation with LLMs.

Local Success Does Not Compose: Benchmarking Large Language Models for Compositional Formal Verification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册