TS-HINT: Enhancing Semiconductor Time Series Regression Using Attention Hints From Large Language Model Reasoning

📄 arXiv: 2512.05419v1 📥 PDF

作者: Jonathan Adam Rico, Nagarajan Raghavan, Senthilnath Jayavelu

分类: cs.LG

发布日期: 2025-12-05


💡 一句话要点

TS-HINT:利用大语言模型推理提示增强半导体时序回归

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 半导体制造 化学机械抛光 大语言模型 注意力机制

📋 核心要点

  1. 现有方法提取静态特征导致时间动态信息丢失,且依赖大量数据。
  2. TS-Hint通过集成思维链推理,利用注意力提示增强时间序列基础模型。
  3. 实验表明,TS-Hint在少样本学习中有效,并能直接学习多元时序特征。

📝 摘要(中文)

现有的数据驱动方法依赖于从时间序列中提取静态特征来近似半导体制造过程(如化学机械抛光CMP)的材料去除率(MRR)。然而,这导致了时间动态信息的丢失,并且这些方法需要大量数据才能进行有效训练。本文提出了一种时间序列基础模型(TSFM)框架TS-Hint,该框架集成了思维链推理,基于注意力机制数据和显著性数据在训练期间提供注意力提示。实验结果表明,我们的模型在有限数据设置下通过少样本学习表现出有效性,并且可以直接从多元时间序列特征中学习。

🔬 方法详解

问题定义:论文旨在解决半导体制造过程中材料去除率(MRR)预测问题,特别是化学机械抛光(CMP)过程。现有方法主要依赖于从时间序列数据中提取静态特征,忽略了时间序列的动态特性,并且需要大量的训练数据才能达到较好的预测精度。这在数据获取成本高昂的半导体制造领域是一个显著的痛点。

核心思路:TS-Hint的核心思路是利用大语言模型(LLM)的推理能力,为时间序列模型提供注意力提示(Attention Hints),从而引导模型更好地学习时间序列的动态特征。通过思维链(Chain-of-Thought)推理,LLM可以分析时间序列数据,并生成关于哪些时间步或特征更重要的提示信息,这些提示信息被用于指导时间序列模型的注意力机制。

技术框架:TS-Hint的整体框架包含以下几个主要模块:1) 时间序列数据输入模块:接收多元时间序列数据作为输入。2) 大语言模型推理模块:利用LLM对时间序列数据进行分析和推理,生成注意力提示。3) 时间序列基础模型(TSFM):使用Transformer或其他适合处理时间序列的模型作为基础模型。4) 注意力提示集成模块:将LLM生成的注意力提示集成到TSFM的注意力机制中,引导模型关注重要的时间步和特征。5) 预测模块:基于集成了注意力提示的TSFM,预测材料去除率(MRR)。

关键创新:TS-Hint的关键创新在于将大语言模型的推理能力与时间序列模型相结合,通过注意力提示的方式,有效地利用了LLM的知识和推理能力来增强时间序列模型的性能。与传统方法相比,TS-Hint不需要大量的数据进行训练,并且能够更好地捕捉时间序列的动态特性。此外,TS-Hint框架具有通用性,可以应用于不同的时间序列基础模型和不同的半导体制造过程。

关键设计:在LLM推理模块中,需要设计合适的提示语(Prompt)来引导LLM生成有用的注意力提示。注意力提示的集成方式可以采用多种方法,例如,直接修改注意力权重,或者作为额外的输入特征。损失函数的设计需要考虑注意力提示的贡献,例如,可以添加一个正则化项,鼓励模型遵循LLM提供的注意力提示。具体的网络结构取决于所选择的时间序列基础模型,例如,可以使用Transformer的自注意力机制,并根据LLM的提示调整注意力权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文实验结果表明,TS-Hint在有限数据设置下表现出优异的性能,通过少样本学习即可达到较高的预测精度。与传统的基于静态特征的方法相比,TS-Hint能够更好地捕捉时间序列的动态特性,从而提高预测的准确性。具体的性能提升幅度取决于数据集和实验设置,但总体趋势是TS-Hint优于现有方法。

🎯 应用场景

TS-Hint在半导体制造领域具有广泛的应用前景,可以用于优化化学机械抛光(CMP)等关键工艺,提高产品质量和生产效率。此外,该方法还可以应用于其他时间序列预测任务,例如,设备故障预测、良率预测等。通过利用大语言模型的推理能力,TS-Hint可以帮助工程师更好地理解和控制复杂的半导体制造过程。

📄 摘要(原文)

Existing data-driven methods rely on the extraction of static features from time series to approximate the material removal rate (MRR) of semiconductor manufacturing processes such as chemical mechanical polishing (CMP). However, this leads to a loss of temporal dynamics. Moreover, these methods require a large amount of data for effective training. In this paper, we propose TS-Hint, a Time Series Foundation Model (TSFM) framework, integrated with chain-of-thought reasoning which provides attention hints during training based on attention mechanism data and saliency data. Experimental results demonstrate the effectiveness of our model in limited data settings via few-shot learning and can learn directly from multivariate time series features.