Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering

📄 arXiv: 2512.20660v1 📥 PDF

作者: Matthew Thompson

分类: cs.LG, cs.AI, cs.SE

发布日期: 2025-12-18

备注: 55 pages, 3 figures, 8 tables


💡 一句话要点

提出双状态架构,提升神经符号系统在软件工程中代码生成的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经符号系统 代码生成 大语言模型 软件工程 双状态架构

📋 核心要点

  1. 现有AI编码Agent过度依赖LLM进行决策,导致代码生成过程中的随机性错误。
  2. 提出双状态架构,将LLM视为环境组件,通过确定性控制流管理其随机性生成。
  3. 实验表明,该架构在代码生成任务中显著提高了成功率,且计算成本可控。

📝 摘要(中文)

当前的AI编码Agent倾向于模糊大语言模型(LLM)和Agent本身之间的界限,让LLM做出本应由确定性过程完成的决策。这导致系统容易出现随机性错误,例如伪造单元测试或产生虚假的语法。本文借鉴成熟的软件工程实践,这些实践为管理不可预测的过程提供了确定性框架,提出设置控制边界,将LLM视为环境的一个组成部分——保留其创造性的随机性——而不是决策Agent。本文形式化了一个 extbf{双状态架构},将工作流状态(确定性控制流)与环境状态(随机生成)分离。 extbf{原子动作对}将生成与验证耦合为不可分割的事务,其中 extbf{Guard函数}充当感知动作,将概率输出投影到可观察的工作流状态。该框架在13个LLM(1.3B-15B参数)上的三个代码生成任务上进行了验证。对于合格的指令遵循模型,任务成功率提高了高达66个百分点,计算成本增加了1.2-2.1倍。结果表明,架构约束可以替代参数规模,从而实现可靠的代码生成。

🔬 方法详解

问题定义:论文旨在解决AI编码Agent在代码生成过程中出现的随机性错误问题。现有方法通常直接使用LLM进行决策,导致生成结果不稳定,容易出现语法错误、逻辑错误,甚至伪造单元测试等问题。这些问题严重影响了AI编码Agent的可靠性和实用性。

核心思路:论文的核心思路是将LLM视为环境的一个组成部分,而不是决策Agent本身。通过引入确定性的控制流来管理LLM的随机性生成,从而提高代码生成的可靠性。这种思路借鉴了软件工程中管理不可预测过程的成熟实践。

技术框架:论文提出了一个双状态架构,该架构包含两个主要状态:工作流状态和环境状态。工作流状态负责确定性的控制流,例如任务分解、代码验证等。环境状态则负责LLM的随机性生成。原子动作对将生成与验证耦合为不可分割的事务。Guard函数充当感知动作,将概率输出投影到可观察的工作流状态。

关键创新:论文最重要的技术创新点在于双状态架构的设计,它将确定性控制流与随机性生成分离,并通过原子动作对和Guard函数进行协调。这种架构能够有效地管理LLM的随机性,从而提高代码生成的可靠性。与现有方法相比,该架构更加注重对LLM行为的约束和控制。

关键设计:Guard函数的设计是关键。Guard函数负责将LLM的概率输出映射到可观察的工作流状态,从而实现对LLM行为的监控和控制。原子动作对的设计保证了生成和验证的原子性,避免了中间状态的出现。论文还对LLM的选择和训练进行了优化,以提高其指令遵循能力。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该框架在三个代码生成任务上显著提高了任务成功率。对于合格的指令遵循模型,任务成功率提高了高达66个百分点,计算成本增加了1.2-2.1倍。这表明,通过引入架构约束,可以在一定程度上替代参数规模,从而实现可靠的代码生成。

🎯 应用场景

该研究成果可应用于各种软件开发场景,例如自动化代码生成、代码修复、代码审查等。通过提高代码生成的可靠性和效率,可以显著降低软件开发成本,并提高软件质量。未来,该方法有望应用于更复杂的软件工程任务,例如自动化测试、需求分析等。

📄 摘要(原文)

Current approaches to AI coding agents appear to blur the lines between the Large Language Model (LLM) and the agent itself, asking the LLM to make decisions best left to deterministic processes. This leads to systems prone to stochastic failures such as gaming unit tests or hallucinating syntax. Drawing on established software engineering practices that provide deterministic frameworks for managing unpredictable processes, this paper proposes setting the control boundary such that the LLM is treated as a component of the environment environment -- preserving its creative stochasticity -- rather than the decision-making agent. A \textbf{Dual-State Architecture} is formalized, separating workflow state (deterministic control flow) from environment state (stochastic generation). \textbf{Atomic Action Pairs} couple generation with verification as indivisible transactions, where \textbf{Guard Functions} act as sensing actions that project probabilistic outputs onto observable workflow state. The framework is validated on three code generation tasks across 13 LLMs (1.3B--15B parameters). For qualified instruction-following models, task success rates improved by up to 66 percentage points at 1.2--2.1$\times$ baseline computational cost. The results suggest that architectural constraints can substitute for parameter scale in achieving reliable code generation.