Instructing the Architecture Search for Spatial-temporal Sequence Forecasting with LLM
作者: Xin Xue, Haoyi Zhou, Tianyu Chen, Shuai Zhang, Yizhou Long, Jianxin Li
分类: cs.CL, cs.AI
发布日期: 2025-03-23
💡 一句话要点
提出基于LLM指导的时空序列预测NAS方法,提升搜索效率与效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时空序列预测 神经架构搜索 大型语言模型 提示工程 多层次增强 交通流量预测 气象预测
📋 核心要点
- 现有STSF的NAS方法依赖耗时的数据驱动方式,难以有效利用背景知识和探索复杂搜索空间。
- 该论文提出一种基于LLM指导的NAS方法,通过多层次增强机制激发LLM在架构搜索中的能力。
- 实验结果表明,该方法在STSF任务上,相较于现有NAS方法,实现了更优的效率和效果。
📝 摘要(中文)
时空序列预测(STSF)是一个具有广泛实际应用的研究问题。神经架构搜索(NAS)在解决STSF问题上显示出有效性。然而,现有的STSF的NAS方法侧重于以耗时的数据驱动方式生成架构,这严重限制了它们使用背景知识和探索复杂搜索轨迹的能力。大型语言模型(LLM)在具有全面内部世界知识的决策方面表现出卓越的能力,但它如何有益于STSF的NAS仍未被探索。本文提出了一种基于LLM的STSF新型NAS方法。我们没有直接使用LLM生成架构,而是通过多层次增强机制激发LLM的能力。具体来说,在步骤层面,我们将生成任务分解为决策步骤,并利用强大的提示工程,基于LLM的内部知识,激发LLM作为架构搜索的指导者。在实例层面,我们利用单步调优框架快速评估架构实例,并使用记忆库积累知识以提高LLM的搜索能力。在任务层面,我们提出了一个两阶段架构搜索,平衡探索阶段和优化阶段,以减少陷入局部最优的可能性。大量的实验结果表明,与现有的STSF的NAS方法相比,我们的方法能够以卓越的效率实现具有竞争力的效果。
🔬 方法详解
问题定义:时空序列预测(STSF)旨在预测未来一段时间内的时空数据演变,现有基于NAS的STSF方法主要依赖数据驱动的架构搜索,计算成本高昂,且难以有效利用领域知识,导致搜索效率低下,容易陷入局部最优解。
核心思路:利用大型语言模型(LLM)强大的知识推理和决策能力,将其作为架构搜索的指导者,而非直接生成架构。通过精心设计的提示工程(Prompt Engineering)和多层次增强机制,引导LLM基于其内部知识进行架构搜索,从而提升搜索效率和效果。
技术框架:该方法采用一个多层次增强的NAS框架,包含以下三个主要层面: 1. 步骤层面(Step-level):将架构生成任务分解为多个决策步骤,通过提示工程引导LLM在每个步骤中做出明智的决策。 2. 实例层面(Instance-level):使用单步调优框架快速评估生成的架构实例,并利用记忆库(Memory Bank)积累经验知识,用于后续的LLM指导。 3. 任务层面(Task-level):采用两阶段架构搜索策略,包括探索阶段和优化阶段,以平衡搜索空间探索和局部优化,避免陷入局部最优。
关键创新:该方法的核心创新在于将LLM引入到STSF的NAS过程中,并设计了多层次增强机制,充分利用LLM的知识推理能力来指导架构搜索。与传统的数据驱动NAS方法相比,该方法能够更有效地利用领域知识,提升搜索效率和效果。
关键设计: 1. 提示工程(Prompt Engineering):设计有效的提示语,引导LLM在每个决策步骤中选择合适的网络结构或参数。 2. 单步调优框架:采用高效的单步调优策略,快速评估生成的架构实例的性能。 3. 记忆库(Memory Bank):维护一个记忆库,用于存储已评估的架构实例及其性能,供LLM学习和参考。 4. 两阶段架构搜索:探索阶段侧重于搜索空间探索,优化阶段侧重于局部优化,通过平衡两个阶段来提升搜索效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个STSF数据集上取得了显著的性能提升,与现有NAS方法相比,在保证竞争力的预测精度下,搜索效率大幅提升。具体数据结果需要在论文中查找。
🎯 应用场景
该研究成果可广泛应用于交通流量预测、气象预测、电力负荷预测等时空序列预测领域。通过利用LLM的知识推理能力,可以更高效地搜索到适用于特定场景的神经网络架构,提升预测精度和效率,具有重要的实际应用价值和潜在的商业前景。
📄 摘要(原文)
Spatial-temporal sequence forecasting (STSF) is a long-standing research problem with widespread real-world applications. Neural architecture search (NAS), which automates the neural network design, has been shown effective in tackling the STSF problem. However, the existing NAS methods for STSF focus on generating architectures in a time-consuming data-driven fashion, which heavily limits their ability to use background knowledge and explore the complicated search trajectory. Large language models (LLMs) have shown remarkable ability in decision-making with comprehensive internal world knowledge, but how it could benefit NAS for STSF remains unexplored. In this paper, we propose a novel NAS method for STSF based on LLM. Instead of directly generate architectures with LLM, We inspire the LLM's capability with a multi-level enhancement mechanism. Specifically, on the step-level, we decompose the generation task into decision steps with powerful prompt engineering and inspire LLM to serve as instructor for architecture search based on its internal knowledge. On the instance-level, we utilize a one-step tuning framework to quickly evaluate the architecture instance and a memory bank to cumulate knowledge to improve LLM's search ability. On the task-level, we propose a two-stage architecture search, balancing the exploration stage and optimization stage, to reduce the possibility of being trapped in local optima. Extensive experimental results demonstrate that our method can achieve competitive effectiveness with superior efficiency against existing NAS methods for STSF.