Projectional Decoding: Towards Semantic-Aware LLM Generation

📄 arXiv: 2605.30054v1 📥 PDF

作者: Boqi Chen, José Antonio Hernández López, Aren A. Babikian

分类: cs.SE, cs.AI

发布日期: 2026-05-28

备注: 5 pages, 3 figures. Accepted at FSE 2026 IVR track


💡 一句话要点

提出投影解码,通过集成领域语义提升LLM生成软件工件的语义有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 软件工程 语义有效性 约束解码 图模型

📋 核心要点

  1. 现有LLM在软件工程任务中生成工件时,难以保证语义的有效性,缺乏将生成文本与语义验证推理桥接的通用表示。
  2. 论文提出投影解码框架,通过维护部分图模型作为工件表示,将领域语义集成到生成过程,实现增量语义验证。
  3. 初步实验结果表明,该方法在程序生成任务中能够提高LLM生成工件的语义有效性,并有望实现可验证的自动化。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用于生成各种软件工程(SE)任务中的软件工件,但确保这些工件的语义有效性仍然是一个根本挑战。现有的约束解码技术可以强制执行语法正确性,在某些情况下还可以执行特定的语义规则,但缺乏一种通用的表示方法,可以将LLM生成的文本与SE中语义验证所需的推理联系起来。本文提出了一种新的概念框架——投影解码,它通过在生成过程中维护一个部分图模型作为主要工件表示,将领域语义直接集成到生成过程中。这种抽象表示通过显式捕获不确定性并原生支持错误检测来实现增量语义验证,同时引导生成具有可证明保证的语义有效输出。我们在程序生成任务上展示了初步结果,证明了该方法在提高LLM生成工件的语义有效性方面的潜力。我们还讨论了投影解码如何能够在各种SE活动中实现LLM的可验证自动化。

🔬 方法详解

问题定义:当前大型语言模型在软件工程领域应用广泛,但生成的软件工件往往难以保证语义正确性。现有的约束解码方法虽然可以保证语法正确,但缺乏一种通用的语义表示方法,无法有效进行语义验证和推理,导致生成的工件可能存在语义错误。

核心思路:论文的核心思路是将领域语义直接融入到LLM的生成过程中。通过维护一个与生成文本并行的、表示领域语义的部分图模型,在生成过程中进行增量式的语义验证,从而引导LLM生成语义上有效的输出。

技术框架:投影解码的技术框架主要包含以下几个阶段:1) LLM生成文本片段;2) 将文本片段投影到部分图模型上,更新图模型的状态;3) 对更新后的图模型进行语义验证,检测潜在的错误;4) 根据语义验证的结果,调整LLM的生成策略,引导其生成更符合语义规则的文本。整个过程迭代进行,直到生成完整的软件工件。

关键创新:该方法最重要的创新在于将领域语义以图模型的形式显式地表示出来,并将其与LLM的生成过程紧密结合。这种结合使得LLM在生成文本的同时,能够考虑到语义约束,从而避免生成语义错误的工件。与现有方法相比,投影解码能够更有效地进行语义验证和推理,并提供可证明的语义有效性保证。

关键设计:部分图模型的具体结构需要根据具体的领域进行设计,例如在程序生成任务中,可以使用抽象语法树(AST)作为图模型的表示。语义验证的过程也需要根据领域知识进行定义,例如可以定义一些语义规则,并检查图模型是否满足这些规则。此外,如何将语义验证的结果反馈给LLM,并调整其生成策略,也是一个关键的设计问题。论文中可能使用了特定的损失函数或强化学习方法来实现这一目标(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在程序生成任务上进行了初步实验,结果表明投影解码能够提高LLM生成工件的语义有效性。具体的性能数据和对比基线未知,但实验结果证明了该方法在提高LLM生成工件语义有效性方面的潜力。

🎯 应用场景

投影解码具有广泛的应用前景,可以应用于各种需要保证语义有效性的软件工程任务中,例如代码生成、需求建模、测试用例生成等。该方法可以提高软件工件的质量,减少人工干预,并有望实现软件工程的自动化和智能化。此外,该方法也可以推广到其他领域,例如自然语言处理、知识图谱构建等。

📄 摘要(原文)

Large language models (LLMs) are increasingly used to generate software artifacts across many software engineering (SE) tasks, yet ensuring the semantic validity of these artifacts remains a fundamental challenge. Existing constrained decoding techniques can enforce syntactic correctness and, in some cases, specific semantic rules, but lack a general representation that bridges LLM-generated text with the reasoning required for semantic validation in SE. In this paper, we propose projectional decoding, a novel conceptual framework that integrates domain semantics directly into the generation process by maintaining, alongside text, a partial graph model as the primary artifact representation throughout generation. This abstract representation enables incremental semantic validation by explicitly capturing uncertainty and natively supporting error detection, while guiding generation toward semantically valid outputs with provable guarantees. We present preliminary results on a program generation task which demonstrate the potential of this approach to improve the semantic validity of LLM-generated artifacts. We also discuss how projectional decoding can enable verifiable automation with LLMs across various SE activities.