BLAST: Benchmarking LLMs with ASP-based Structured Testing

📄 arXiv: 2604.22306v1 📥 PDF

作者: Manuel Alejandro Borroto Santana, Erica Coppolillo, Francesco Calimeri, Giuseppe Manco, Simona Perri, Francesco Ricca

分类: cs.LO, cs.AI, cs.PL

发布日期: 2026-04-24


💡 一句话要点

BLAST:提出基于ASP的结构化测试基准,评估LLM在ASP代码生成中的准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 答案集编程 基准测试 代码生成 语义评估 声明式编程 知识表示

📋 核心要点

  1. 现有研究较少关注LLM在处理声明式范式(如ASP)方面的能力,缺乏针对性的评估方法。
  2. BLAST提出了一种新的基准测试方法和数据集,专门用于评估LLM生成ASP代码的准确性。
  3. 实验评估了八个先进LLM在十个图相关ASP问题上的性能,并使用了两个新的语义指标。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言理解、对话系统和代码生成等广泛任务中表现出了卓越的性能。然而,迄今为止,人们对其处理声明式范式(如答案集编程(ASP))的有效性关注较少。本文介绍了BLAST:第一个专门用于评估LLM生成ASP代码准确性的基准测试方法和相关数据集。BLAST提供了一个结构化的评估框架,其中包含两个为ASP代码生成量身定制的新型语义指标。本文展示了一个实证评估的结果,该评估涉及来自ASP文献中的十个已建立的图相关问题和八个不同的最先进的LLM。

🔬 方法详解

问题定义:论文旨在解决LLM在生成ASP代码时的准确性评估问题。现有方法缺乏针对ASP代码生成的专门基准和评估指标,无法有效衡量LLM在处理声明式编程范式方面的能力。现有方法难以捕捉ASP代码的语义正确性,仅仅关注语法层面的匹配是不够的。

核心思路:论文的核心思路是构建一个结构化的测试框架,包含专门设计的ASP问题集和语义评估指标,从而全面评估LLM生成ASP代码的质量。通过提供标准化的测试用例和评估方法,可以促进LLM在ASP代码生成方面的研究和发展。

技术框架:BLAST包含以下主要组成部分:1) ASP问题集:从ASP文献中选取了十个经典的图相关问题,作为LLM代码生成的测试用例。2) 代码生成:使用不同的LLM生成解决这些问题的ASP代码。3) 语义评估指标:设计了两个新的语义指标,用于评估生成代码的正确性。这些指标考虑了ASP代码的语义,而不仅仅是语法。4) 评估流程:将生成的代码输入ASP求解器,并根据求解结果计算语义指标,从而评估LLM的性能。

关键创新:BLAST的关键创新在于:1) 提出了第一个专门针对LLM生成ASP代码的基准测试方法和数据集。2) 设计了两个新的语义指标,能够更准确地评估ASP代码的正确性。这些指标考虑了ASP代码的语义,而不仅仅是语法。3) 提供了一个结构化的评估框架,可以方便地评估不同的LLM在ASP代码生成方面的性能。

关键设计:论文中设计的两个语义指标是关键。具体细节未知,但可以推测其设计目标是衡量生成ASP代码的解集与预期解集之间的差异,例如通过比较模型集或使用其他逻辑推理技术。此外,问题集的选择也至关重要,需要覆盖ASP编程的常见模式和挑战。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的LLM在ASP代码生成方面的性能差异显著。某些LLM在特定问题上表现良好,但在其他问题上则表现较差。通过BLAST基准测试,可以有效识别LLM的优势和不足,并为LLM的改进提供指导。具体的性能数据和对比基线在论文中给出,但摘要中未明确提及具体的性能提升幅度。

🎯 应用场景

该研究成果可应用于自动化知识表示与推理、智能规划、以及基于声明式编程的软件开发等领域。通过提升LLM生成ASP代码的准确性,可以降低开发成本,提高软件质量。未来,该研究可以扩展到其他声明式编程语言,并应用于更广泛的AI应用场景。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable performance across a broad spectrum of tasks, including natural language understanding, dialogue systems, and code generation. Despite evident progress, less attention has been paid to their effectiveness in handling declarative paradigms such as Answer Set Programming (ASP), to date. In this paper we introduce BLAST: The first dedicated benchmarking methodology and associated dataset for evaluating the accuracy of LLMs in generating ASP code. BLAST provides a structured evaluation framework featuring two novel semantic metrics tailored to ASP code generation. The paper presents the results of an empirical evaluation involving ten well-established graph-related problems from the ASP literature and a diverse set of eight state-of-the-art LLMs.