Skilled AI Agents for Embedded and IoT Systems Development
作者: Yiming Li, Yuhan Cheng, Mingchen Ma, Yihang Zou, Ningyuan Yang, Wei Cheng, Hai "Helen" Li, Yiran Chen, Tingjun Chen
分类: cs.SE, cs.AI
发布日期: 2026-03-20
💡 一句话要点
提出基于技能的AI Agent框架,用于硬件在环嵌入式和物联网系统开发
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 嵌入式系统 物联网 AI Agent 硬件在环 技能学习
📋 核心要点
- 现有方法难以应对嵌入式和物联网系统中软件与硬件的紧密耦合,导致编译成功的代码在实际硬件上可能失败。
- 论文提出基于技能的Agent框架,利用结构化的专家知识,提升Agent在硬件在环嵌入式开发中的表现。
- 通过IoT-SkillsBench基准测试,验证了人类专家技能能够显著提高Agent在不同平台上的任务成功率。
📝 摘要(中文)
大型语言模型(LLMs)和Agent系统在自动化软件开发方面展现出潜力,但由于软件逻辑与物理硬件行为的紧密耦合,将其应用于硬件在环(HIL)嵌入式和物联网(IoT)系统仍然具有挑战性。即使成功编译的代码,在实际设备上部署时,也可能因为时序约束、外设初始化要求或特定硬件行为而失败。为了解决这一挑战,我们引入了一个基于技能的Agent框架,用于HIL嵌入式开发,并提出了IoT-SkillsBench基准,旨在系统地评估AI Agent在真实嵌入式编程环境中的表现。IoT-SkillsBench涵盖了三个代表性的嵌入式平台、23个外设和42个跨越三个难度级别的任务。每个任务都在三种Agent配置(无技能、LLM生成的技能和人类专家技能)下进行评估,并通过真实的硬件执行进行验证。在378个硬件验证实验中,我们表明,简洁的人类专家技能与结构化的专家知识能够实现近乎完美的跨平台成功率。
🔬 方法详解
问题定义:现有的大型语言模型和Agent系统在自动化软件开发中表现出潜力,但直接应用于硬件在环的嵌入式和物联网系统时面临挑战。主要痛点在于软件逻辑与物理硬件行为的强耦合性,导致编译通过的代码在实际硬件上运行时可能因时序、外设初始化等问题而失败。现有方法缺乏对硬件特性的有效建模和利用,难以保证代码在真实环境中的正确执行。
核心思路:论文的核心思路是引入“技能”的概念,将嵌入式和物联网系统开发所需的知识和经验封装成结构化的技能,并赋予Agent调用和组合这些技能的能力。通过这种方式,Agent可以更好地理解硬件特性,并生成更可靠的代码。核心在于利用专家知识来指导Agent的行为,从而提高其在复杂硬件环境中的适应性。
技术框架:该框架包含以下主要模块:1) 任务分解模块:将高层次的任务目标分解为一系列可执行的子任务。2) 技能选择模块:根据当前子任务的需求,从技能库中选择合适的技能。技能库包含LLM生成的技能和人类专家定义的技能。3) 代码生成模块:利用选定的技能生成代码片段。4) 硬件验证模块:在实际硬件上执行生成的代码,并收集反馈信息。5) 技能优化模块:根据硬件验证的结果,对技能进行优化和改进。整个流程是一个迭代的过程,Agent不断地学习和改进,最终完成任务。
关键创新:最重要的技术创新点在于将“技能”的概念引入到嵌入式和物联网系统的Agent开发中。与传统的端到端方法相比,该方法能够更好地利用专家知识,提高Agent的可靠性和可解释性。此外,IoT-SkillsBench基准的提出也为评估AI Agent在真实嵌入式编程环境中的表现提供了一个标准化的平台。
关键设计:技能的表示形式是关键。论文中,技能被表示为结构化的知识单元,包含技能的描述、输入参数、输出结果以及执行代码等信息。技能库的构建方式也至关重要,需要保证技能的覆盖性和可复用性。此外,硬件验证模块的设计也需要考虑如何有效地收集反馈信息,并将其用于技能的优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用人类专家技能的Agent在IoT-SkillsBench基准测试中取得了近乎完美的成功率,显著优于无技能和LLM生成的技能的Agent。具体而言,人类专家技能配置下的Agent在三个嵌入式平台上均表现出极高的可靠性,验证了结构化专家知识在提高Agent性能方面的有效性。
🎯 应用场景
该研究成果可应用于自动化嵌入式系统和物联网设备的开发,降低开发门槛,缩短开发周期。例如,可以帮助工程师快速生成设备驱动程序、实现传感器数据采集和处理、以及构建智能家居系统等。未来,该技术有望推动嵌入式和物联网技术的普及和应用,加速智能化进程。
📄 摘要(原文)
Large language models (LLMs) and agentic systems have shown promise for automated software development, but applying them to hardware-in-the-loop (HIL) embedded and Internet-of-Things (IoT) systems remains challenging due to the tight coupling between software logic and physical hardware behavior. Code that compiles successfully may still fail when deployed on real devices because of timing constraints, peripheral initialization requirements, or hardware-specific behaviors. To address this challenge, we introduce a skills-based agentic framework for HIL embedded development together with IoT-SkillsBench, a benchmark designed to systematically evaluate AI agents in real embedded programming environments. IoT-SkillsBench spans three representative embedded platforms, 23 peripherals, and 42 tasks across three difficulty levels, where each task is evaluated under three agent configurations (no-skills, LLM-generated skills, and human-expert skills) and validated through real hardware execution. Across 378 hardware validated experiments, we show that concise human-expert skills with structured expert knowledge enable near-perfect success rates across platforms.