语言模型架构在时间序列预测中的创新应用
时间序列预测对零售、能源、金融和医疗等行业的决策至关重要。然而,开发基于机器学习的精准预测模型传统上需要大量针对特定数据集的调优和模型定制。
在一篇最新发布的论文中,提出了Chronos——一个基于语言模型架构的预训练时间序列模型家族。与大型语言模型或视觉语言模型类似,Chronos作为基础模型,通过从大型数据集学习产生适用于广泛任务的通用表示。
Chronos的核心洞察是将时间序列数据视为可由现成Transformer架构建模的语言。为了将实值时间序列观测转换为固定词汇表的令牌,首先按绝对平均值缩放时间序列,然后将缩放后的时间序列量化为固定数量的均匀间隔区间。除了这些区间令牌外,还添加了两个特殊令牌PAD和EOS,分别表示填充/缺失值和序列结束。随后可以使用传统的交叉熵损失函数在此类"时间序列语言"上训练T5等标准语言模型,而无需改变模型架构本身。
尽管方法简单,Chronos却表现出卓越的准确性。在涉及42个数据集的综合评估中,Chronos在训练集保留数据上显著优于经典统计方法和专业深度学习模型。更重要的是,在全新数据集上,Chronos的零样本性能与直接在这些数据集上训练的模型相当,有时甚至更优。
Chronos的核心优势在于能够利用来自不同领域的多样化时间序列数据来提高泛化能力。为了增强模型的鲁棒性,通过随机混合真实样本(TSMix)和基于高斯过程的合成数据集(KernelSynth)对预训练使用的公共数据源进行了增强。
Chronos令人印象深刻的零样本能力使其成为简化部署流程的可行"通用"预测解决方案。实践者可以使用现成的Chronos模型立即进行准确预测,而无需为每个定制应用训练单独模型,从而降低计算成本并更容易采用先进预测技术。
尽管Chronos取得了强有力的实证结果,但这项探索只是将语言建模与时间序列预测相结合的初步尝试。未来研究可以探索更复杂的时间序列令牌化方案、针对序列数据定制的架构,以及明确整合辅助特征或领域知识。
使用预训练模型进行时间序列预测是一个令人兴奋的前沿领域。通过将预测任务重新表述为一种语言建模,Chronos展示了一条实现通用且准确预测的更简单路径。此外,Chronos将能够无缝集成未来LLM设计方面的进展。研究人员和实践者现在可以使用开源提供的Chronos,并共同开发下一代时间序列模型。