Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation
作者: Yee Hin Chong, Jiaming Wu, Youhui Zhang, Peng Qu
分类: cs.AI
发布日期: 2026-05-26
备注: ICML 2026 accpeted, camera-ready in progress
💡 一句话要点
提出CUDAnalyst,用于分析LLM智能体在CUDA核生成中反馈到规划决策的影响。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 CUDA内核生成 反馈条件规划 智能体 归因分析
📋 核心要点
- 现有方法难以区分反馈信号对LLM智能体CUDA核生成规划决策的具体影响,端到端消融实验易受迭代规划中的扰动和漂移影响。
- 论文提出CUDAnalyst,通过轨迹冻结和选择性反馈注入,实现对规划决策中不同反馈成分的受控归因分析。
- 实验表明,显式规划仅在反馈对齐时有效,有效规划源于结构化多反馈交互,且更强模型的计划可部分迁移到较弱模型。
📝 摘要(中文)
大型语言模型(LLM)作为自我进化的智能体,在CUDA内核生成方面表现出强大的实证优势,这得益于跨代反馈条件规划。然而,规划决策如何归因和组合异构反馈信号仍然不明确。标准的端到端消融实验无法解决这个问题,因为迭代规划会放大早期扰动,并将反馈效应与轨迹相关的漂移混淆。我们引入了 exttt{CUDAnalyst},一个统一的分析层,用于通过轨迹冻结和选择性反馈注入,对规划决策进行受控的、生成级别的反馈组件归因。 exttt{CUDAnalyst}实现了稳定的生成级别评估和基于原则的联盟式反馈效应和交互归因。我们的结果表明,只有当反馈对齐时,显式规划才是有益的,有效的规划来自于结构化的多反馈交互,并且来自更强推理模型的高级计划可以部分转移到较弱的模型。这些趋势在参考骨干网络、代表性工作负载和参考归纳方案中都成立,表明所识别的反馈到规划结构在所研究的受控轴内是稳健的。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在CUDA内核生成任务中,如何理解和利用反馈信号来指导规划决策的问题。现有方法,特别是端到端消融实验,无法有效区分不同反馈信号的影响,因为迭代规划过程会放大早期扰动,使得反馈效应与轨迹相关的漂移相互混淆,难以进行准确的归因分析。
核心思路:论文的核心思路是引入一个统一的分析层 exttt{CUDAnalyst},通过控制生成过程中的反馈信号,实现对规划决策的精确归因。具体来说,通过轨迹冻结技术,可以固定LLM的生成轨迹,消除轨迹漂移的影响;通过选择性反馈注入,可以单独或组合地注入不同的反馈信号,观察其对规划决策的影响。
技术框架: exttt{CUDAnalyst}作为一个分析层,可以集成到现有的LLM智能体框架中。其主要流程包括:1) 冻结LLM的生成轨迹;2) 选择性地注入不同的反馈信号(例如,代码编译结果、性能测试结果等);3) 观察LLM在不同反馈信号下的规划决策变化;4) 使用联盟博弈论等方法,对不同反馈信号的贡献进行量化分析。
关键创新:论文最重要的技术创新点在于提出了 exttt{CUDAnalyst},这是一个用于分析LLM智能体反馈到规划决策的统一框架。与传统的端到端消融实验相比, exttt{CUDAnalyst}能够更精确地控制和分析反馈信号的影响,从而更好地理解LLM的规划机制。
关键设计: exttt{CUDAnalyst}的关键设计包括:1) 轨迹冻结机制,确保在不同反馈信号下,LLM的生成轨迹保持一致,消除轨迹漂移的影响;2) 选择性反馈注入机制,允许研究人员单独或组合地注入不同的反馈信号,观察其对规划决策的影响;3) 基于联盟博弈论的归因分析方法,用于量化不同反馈信号的贡献。
🖼️ 关键图片
📊 实验亮点
实验结果表明,显式规划仅在反馈对齐时有效,有效的规划来自于结构化的多反馈交互,并且来自更强推理模型的高级计划可以部分转移到较弱的模型。这些趋势在不同的参考骨干网络、代表性工作负载和参考归纳方案中都成立,表明所识别的反馈到规划结构是稳健的。
🎯 应用场景
该研究成果可应用于自动化代码生成、程序优化、机器人控制等领域。通过理解反馈信号对LLM规划决策的影响,可以设计更有效的LLM智能体,提高代码生成质量、程序性能和机器人控制精度。此外,该研究方法也可推广到其他需要反馈优化的任务中。
📄 摘要(原文)
Large language models (LLMs) have shown strong empirical gains as self-evolving agents for CUDA kernel generation, driven by feedback-conditioned planning across generations. However, how planning decisions attribute and combine heterogeneous feedback signals remains opaque. Standard end-to-end ablations fail to resolve this question, as iterative planning amplifies early perturbations and conflates feedback effects with trajectory-dependent drift. We introduce \texttt{CUDAnalyst}, a unified analysis layer for controlled, generation-level attribution of planning decisions to feedback components via trajectory freezing and selective feedback injection. \texttt{CUDAnalyst} enables stable generation-level evaluation and principled coalitional-style attribution of feedback effects and interactions. Our results show that explicit planning is beneficial only when feedback is aligned, that effective planning emerges from structured multi-feedback interactions, and that high-level plans from stronger reasoning models can partially transfer to weaker ones. These trends hold across reference backbones, representative workloads, and reference induction regimes, indicating that the identified feedback-to-plan structure is robust within the controlled axes studied.