When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning
作者: Roberto Morabito, Guanghan Wu
分类: cs.SE, cs.AI
发布日期: 2025-09-13
备注: This paper has been accepted for publication in Computer (IEEE). Upon publication, the copyright will be transferred to IEEE
💡 一句话要点
研究LLM在嵌入式机器学习代码生成中的失效模式与原因
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 嵌入式机器学习 代码生成 失效模式分析 自动驾驶框架
📋 核心要点
- 现有方法难以检测LLM在嵌入式ML代码生成中出现的静默失败和不可预测行为,导致系统可靠性问题。
- 论文提出一个自动驾驶框架,用于编排数据预处理、模型转换和设备端推理代码生成,从而研究LLM的失效模式。
- 通过实验分析,论文揭示了提示格式、模型行为和结构假设对LLM代码生成成功率和失效特征的影响。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于自动化嵌入式机器学习工作流程中的软件生成,但其输出常常出现静默失败或不可预测的行为。本文基于一个自动驾驶框架,对LLM驱动的ML管道中的失效模式进行了实证研究,该框架协调数据预处理、模型转换和设备端推理代码生成。研究表明,提示格式、模型行为和结构假设会以标准验证管道难以检测的方式影响成功率和失效特征。我们的分析揭示了一系列容易出错的行为,包括格式引起的误解和编译但破坏下游的运行时破坏性代码。我们推导出一个失效类别分类法,并分析了多个LLM中的错误,突出了常见的根本原因和系统脆弱性。虽然基于特定设备,但我们的研究揭示了基于LLM的代码生成中更广泛的挑战。最后,我们讨论了提高LLM驱动的嵌入式ML系统中可靠性和可追溯性的方向。
🔬 方法详解
问题定义:论文旨在解决LLM在嵌入式机器学习代码生成中出现的可靠性问题。现有方法,即标准验证管道,无法有效检测LLM生成的代码中存在的静默失败和不可预测行为,这给嵌入式ML系统的部署带来了风险。这些问题源于LLM对上下文的误解、生成的代码中存在的运行时错误以及对底层硬件平台的理解不足。
核心思路:论文的核心思路是通过构建一个自动驾驶框架,模拟完整的嵌入式ML部署流程,从而系统性地研究LLM在各个阶段的失效模式。该框架允许研究人员控制输入、观察中间结果,并分析最终的设备端行为,从而揭示LLM在嵌入式ML代码生成中的脆弱性。
技术框架:该自动驾驶框架包含以下主要模块:1) 数据预处理模块,负责将原始数据转换为LLM可以理解的格式;2) 模型转换模块,将训练好的ML模型转换为适合嵌入式设备部署的格式;3) 代码生成模块,利用LLM生成设备端推理代码;4) 验证模块,对生成的代码进行测试和验证,评估其正确性和性能。整个流程模拟了从数据到部署的完整嵌入式ML管道。
关键创新:论文的关键创新在于其系统性的失效模式分析方法。通过控制实验条件,研究人员能够隔离并识别导致LLM生成错误代码的各种因素,例如提示格式、模型行为和结构假设。此外,论文还提出了一个失效类别分类法,用于组织和理解LLM在嵌入式ML代码生成中出现的各种错误。
关键设计:论文的关键设计包括:1) 精心设计的提示工程,用于探索不同提示格式对LLM代码生成的影响;2) 多种LLM的对比实验,用于评估不同LLM在嵌入式ML任务中的表现;3) 细粒度的错误分析,用于识别LLM生成的代码中存在的具体问题,例如格式错误、逻辑错误和运行时错误。
📊 实验亮点
实验结果表明,LLM在嵌入式ML代码生成中存在多种失效模式,包括格式引起的误解和运行时破坏性代码。研究发现,提示格式对LLM的性能有显著影响,并且不同的LLM在处理嵌入式ML任务时表现出不同的脆弱性。通过对错误进行分类和分析,论文揭示了LLM在嵌入式ML代码生成中的常见根本原因和系统性问题。
🎯 应用场景
该研究成果可应用于各种嵌入式机器学习领域,例如物联网设备、自动驾驶系统和边缘计算平台。通过提高LLM在嵌入式代码生成中的可靠性,可以加速嵌入式ML应用的开发和部署,降低开发成本,并提高系统的整体性能和安全性。未来的影响包括更智能、更高效的嵌入式设备和系统。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly used to automate software generation in embedded machine learning workflows, yet their outputs often fail silently or behave unpredictably. This article presents an empirical investigation of failure modes in LLM-powered ML pipelines, based on an autopilot framework that orchestrates data preprocessing, model conversion, and on-device inference code generation. We show how prompt format, model behavior, and structural assumptions influence both success rates and failure characteristics, often in ways that standard validation pipelines fail to detect. Our analysis reveals a diverse set of error-prone behaviors, including format-induced misinterpretations and runtime-disruptive code that compiles but breaks downstream. We derive a taxonomy of failure categories and analyze errors across multiple LLMs, highlighting common root causes and systemic fragilities. Though grounded in specific devices, our study reveals broader challenges in LLM-based code generation. We conclude by discussing directions for improving reliability and traceability in LLM-powered embedded ML systems.