Is Vibe Coding the Future? An Empirical Assessment of LLM Generated Codes for Construction Safety

📄 arXiv: 2604.12311v1 📥 PDF

作者: S M Jamil Uddin

分类: cs.SE, cs.AI, cs.HC

发布日期: 2026-04-14


💡 一句话要点

评估LLM生成代码在建筑安全中的可靠性,揭示“氛围编程”的潜在风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 氛围编程 建筑安全 代码生成 静默失效

📋 核心要点

  1. 现有方法难以让非技术人员快速开发建筑安全工具,存在开发门槛高、周期长的问题。
  2. 研究探索了利用大型语言模型(LLM)进行“氛围编程”,即通过自然语言生成代码,降低开发门槛。
  3. 实验表明,LLM生成的代码存在较高的“静默失效”风险,需要更严格的监管和确定性保障。

📝 摘要(中文)

本文评估了“氛围编程”在建筑安全领域的应用,即非技术人员通过自然语言指示大型语言模型(LLM)生成可执行代码。虽然这种方式能赋能安全经理、工头和工人开发工具,但LLM的概率性本质带来了潜在的风险,即生成的代码可能在编译上没有问题,但执行的数学安全逻辑存在缺陷,导致“静默失效”。研究对Claude 3.5 Haiku、GPT-4o-Mini和Gemini 2.5 Flash生成的450个Python脚本进行了评估,考察了其可靠性、软件架构和领域特定的安全保真度。结果表明,零样本氛围编程在建筑安全方面存在严重局限性,用户角色与数据幻觉之间存在显著关系,不严谨的提示会显著增加AI捏造缺失安全变量的可能性。虽然模型在基础执行方面表现出较高的可行性(约85%),但这种语法可靠性掩盖了逻辑缺陷和防御性编程的严重不足。在成功执行的脚本中,总体静默失效率高达约45%,其中GPT-4o-Mini在约56%的功能代码中产生了数学上不准确的输出。研究表明,目前的LLM缺乏独立安全工程所需的确定性,因此需要采用确定性AI封装器和严格的监管措施。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在建筑安全领域进行“氛围编程”的可靠性。现有方法依赖专业程序员,开发周期长,成本高,难以满足建筑现场快速迭代的需求。而直接使用LLM生成代码,可能导致代码逻辑错误,产生安全隐患,即“静默失效”,现有方法缺乏对这种风险的量化评估。

核心思路:核心思路是通过构建一个包含不同用户角色(安全经理、工头、工人)的提示数据集,并利用这些提示让不同的LLM生成Python脚本,然后通过动态沙箱执行和LLM作为裁判的双重评估流程,量化LLM生成代码的可靠性和安全性。通过分析不同用户角色提示下的代码质量,揭示LLM在处理不同领域知识和编程能力的用户需求时的表现。

技术框架:研究采用了一个双分支的评估流程。首先,使用persona-driven prompt dataset(n=150)分别输入到Claude 3.5 Haiku, GPT-4o-Mini, 和 Gemini 2.5 Flash 三个LLM中,生成450个Python脚本。然后,这些脚本经过两个阶段的评估:1) 动态沙箱执行:在隔离环境中执行代码,检查是否存在语法错误和运行时异常;2) LLM-as-a-Judge:使用另一个LLM作为裁判,评估代码的逻辑正确性、安全性和防御性编程水平。最后,统计分析不同模型的执行成功率、静默失效率,以及用户角色与数据幻觉之间的关系。

关键创新:该研究的关键创新在于:1) 提出了一个针对建筑安全领域“氛围编程”的评估框架,量化了LLM生成代码的可靠性和安全性;2) 揭示了用户角色与数据幻觉之间的关系,表明不严谨的提示会显著增加AI捏造缺失安全变量的可能性;3) 强调了LLM在安全关键领域的应用风险,呼吁采用确定性AI封装器和严格的监管措施。

关键设计:关键设计包括:1) Persona-driven prompt dataset的设计,模拟了不同用户角色的需求和知识水平;2) 动态沙箱环境的构建,确保代码执行的安全性;3) LLM-as-a-Judge的prompt设计,确保评估的客观性和准确性;4) 静默失效率的定义和计算方法,量化了代码逻辑错误的风险。

📊 实验亮点

实验结果表明,LLM在建筑安全领域的“氛围编程”存在较高的风险。虽然模型具有较高的基础执行可行性(约85%),但静默失效率高达约45%。GPT-4o-Mini在约56%的功能代码中产生了数学上不准确的输出。研究还发现,用户角色与数据幻觉之间存在显著关系,不严谨的提示会显著增加AI捏造缺失安全变量的可能性。

🎯 应用场景

该研究成果可应用于建筑安全领域,指导安全工程师和开发人员更安全地使用LLM进行代码生成。通过采用确定性AI封装器和实施严格的监管措施,可以降低LLM生成代码的风险,提高建筑安全工具的可靠性。此外,该研究也为其他安全关键领域的LLM应用提供了参考,例如医疗、交通等。

📄 摘要(原文)

The emergence of vibe coding, a paradigm where non-technical users instruct Large Language Models (LLMs) to generate executable codes via natural language, presents both significant opportunities and severe risks for the construction industry. While empowering construction personnel such as the safety managers, foremen, and workers to develop tools and software, the probabilistic nature of LLMs introduces the threat of silent failures, wherein generated code compiles perfectly but executes flawed mathematical safety logic. This study empirically evaluates the reliability, software architecture, and domain-specific safety fidelity of 450 vibe-coded Python scripts generated by three frontier models, Claude 3.5 Haiku, GPT-4o-Mini, and Gemini 2.5 Flash. Utilizing a persona-driven prompt dataset (n=150) and a bifurcated evaluation pipeline comprising isolated dynamic sandboxing and an LLM-as-a-Judge, the research quantifies the severe limits of zero-shot vibe codes for construction safety. The findings reveal a highly significant relationship between user persona and data hallucination, demonstrating that less formal prompts drastically increase the AI's propensity to invent missing safety variables. Furthermore, while the models demonstrated high foundational execution viability (~85%), this syntactic reliability actively masked logic deficits and a severe lack of defensive programming. Among successfully executed scripts, the study identified an alarming ~45% overall Silent Failure Rate, with GPT-4o-Mini generating mathematically inaccurate outputs in ~56% of its functional code. The results demonstrate that current LLMs lack the deterministic rigor required for standalone safety engineering, necessitating the adoption of deterministic AI wrappers and strict governance for cyber-physical deployments.