Commencing-Student Enrolment Forecasting Under Data Sparsity with Time Series Foundation Models
作者: Jittarin Jetwiriyanon, Teo Susnjak, Surangika Ranathunga
分类: cs.AI
发布日期: 2026-02-12
备注: 31 pages, 5 figures, 3 tables
💡 一句话要点
利用时间序列基础模型,解决数据稀疏下的高校新生入学预测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 数据稀疏 时间序列基础模型 零样本学习 高校招生 协变量 机构运营条件指数
📋 核心要点
- 高校入学预测面临数据稀疏挑战,传统方法在短序列和结构性变化下表现不佳。
- 论文提出利用时间序列基础模型(TSFM)的零样本先验知识,并结合防泄漏的协变量。
- 实验表明,在零样本设置下,TSFM在入学预测中可与经典基准方法相媲美。
📝 摘要(中文)
许多大学面临日益增长的财务压力,因此依赖于对新生入学人数的准确预测。然而,高等教育中的入学预测通常面临数据稀疏的问题;年度序列较短,且受到报告变更和制度转变的影响。流行的经典方法可能不可靠,因为参数估计和模型选择在短样本下不稳定,结构性断裂会降低外推效果。最近,时间序列基础模型(TSFM)提供了零样本先验,在年度、数据稀疏的机构预测中取得了显著收益,前提是采用泄漏约束的协变量构建方法。本文在零样本设置下对多个TSFM家族进行了基准测试,并测试了一个紧凑、防泄漏的协变量集,同时引入了机构运营条件指数(IOCI),这是一个可迁移的0-100制度协变量,来源于每个预测起点的带时间戳的文献证据,以及具有稳定特征工程的谷歌趋势需求代理。通过具有严格历史数据对齐的扩展窗口回测,协变量条件下的TSFM在没有机构特定训练的情况下,表现与经典基准相当,性能差异因队列和模型而异。
🔬 方法详解
问题定义:高校入学人数预测对于财务规划至关重要,但面临数据稀疏的挑战。历史数据短,易受政策变化等因素影响,导致传统时间序列模型参数估计不稳定,预测精度低。现有方法难以有效利用有限的数据进行准确预测。
核心思路:利用时间序列基础模型(TSFM)的预训练能力,提供零样本先验知识。通过构建防泄漏的协变量,例如机构运营条件指数(IOCI)和谷歌趋势数据,为TSFM提供外部信息,提高预测准确性。核心在于利用TSFM的泛化能力,克服数据稀疏带来的挑战。
技术框架:整体框架包括数据预处理、协变量构建、TSFM选择与配置、以及预测结果评估。数据预处理包括历史入学数据的清洗和整理。协变量构建包括IOCI的计算和谷歌趋势数据的特征工程。TSFM选择包括对多个TSFM家族进行基准测试。预测结果评估采用扩展窗口回测,并与经典基准方法进行比较。
关键创新:最重要的创新点在于将TSFM应用于数据稀疏的高校入学预测问题,并结合防泄漏的协变量构建方法。IOCI的引入提供了一种可迁移的制度环境指标,能够有效反映高校的运营状况。
关键设计:IOCI的设计基于带时间戳的文献证据,通过专家知识进行编码,反映高校的运营状况。谷歌趋势数据通过稳定特征工程进行处理,以减少噪声。TSFM的选择基于零样本性能的基准测试,选择适合高校入学预测的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在零样本设置下,协变量条件下的TSFM在入学预测中表现与经典基准方法相当,且无需机构特定训练。这表明TSFM具有很强的泛化能力,能够有效应对数据稀疏的挑战。IOCI和谷歌趋势数据的引入显著提高了预测准确性。
🎯 应用场景
该研究成果可应用于高校招生管理、财务规划和资源分配。通过更准确的入学预测,高校可以更好地进行预算编制、人员配置和设施建设。此外,该方法也可推广到其他数据稀疏的时间序列预测问题,例如新产品销售预测、市场需求预测等。
📄 摘要(原文)
Many universities face increasing financial pressure and rely on accurate forecasts of commencing enrolments. However, enrolment forecasting in higher education is often data-sparse; annual series are short and affected by reporting changes and regime shifts. Popular classical approaches can be unreliable, as parameter estimation and model selection are unstable with short samples, and structural breaks degrade extrapolation. Recently, TSFMs have provided zero-shot priors, delivering strong gains in annual, data-sparse institutional forecasting under leakage-disciplined covariate construction. We benchmark multiple TSFM families in a zero-shot setting and test a compact, leakage-safe covariate set and introduce the Institutional Operating Conditions Index (IOCI), a transferable 0-100 regime covariate derived from time-stamped documentary evidence available at each forecast origin, alongside Google Trends demand proxies with stabilising feature engineering. Using an expanding-window backtest with strict vintage alignment, covariate-conditioned TSFMs perform on par with classical benchmarks without institution-specific training, with performance differences varying by cohort and model.