发达的ET(指数平滑或误差,趋势,季节性)方法在状态空间表示中纳入了指数平滑模型家族,已广泛用于自动预测。现有的ETS方法使用信息标准来选择模型选择,通过在适用于给定时间序列的所有模型中选择具有最小信息标准的最佳模型。当应用于大规模时间序列数据时,这种模型选择方案下的ETS方法会遭受计算复杂性。为了解决此问题,我们通过模拟数据上的培训分类器提出了一种有效的ETS模型选择方法,以预测给定时间序列的适当模型组件形式。我们提供了一项模拟研究,以显示模拟数据中提出的方法的模型选择能力。我们根据点预测和预测间隔,对广泛使用的预测竞争数据集M4评估我们的方法。为了证明我们方法的实际价值,我们在每月医院数据集上展示了方法的绩效改进。
translated by 谷歌翻译
在时间序列预测的背景下,常用做法是评估多种方法,并选择其中一种方法或用于产生最佳预测的合奏。然而,在多种方法中选择不同的集合仍然是当方法的数量增加时,仍然是经历组合爆炸的具有挑战性的任务。在需求预测或收入预测的背景下,这一挑战在大量时间序列以及由于不断变化的业务环境而获得的有限的历史数据点,进一步加剧。虽然深入学习预测方法旨在同时预测大量时间序列,但由于有限的历史可用,可能不会产生理想的结果,它们变得挑战。我们提出了一种通过在使用交叉验证的潜在时间序列上组合低级时间矩阵分解和最佳模型选择来预测短高维时间序列数据的框架。我们展示预测潜在因子与直接应用于时间序列的不同UNI变化模型相比,潜在因子导致显着的性能提升。在M4月数据集的截断版本上验证了性能,其中包含来自来自多个域的时间序列数据,显示该方法的一般适用性。此外,由于在将预测方法直接应用于高维数据集时通常是不切实际的潜在因子而言,可以将未来的分析师视图纳入未来的分析师观。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
本文介绍了一个集成预测方法,通过减少特征和模型选择假设来显示M4Competitiation数据集的强劲结果,称为甜甜圈(不利用人为假设)。我们的假设减少,主要由自动生成的功能和更多样化的集合模型组成,显着优于Montero-Manso等人的统计特征的集合方法FForma。 (2020)。此外,我们用长短期内存网络(LSTM)AutoEncoder调查特征提取,并发现此类特征包含传统统计特征方法未捕获的重要信息。合奏加权模型使用LSTM功能和统计功能准确地结合模型。特征重要性和交互的分析表明,单独的统计数据的LSTM特征略有优势。聚类分析表明,不同的基本LSTM功能与大多数统计特征不同。我们还发现,通过使用新模型增强合奏来增加加权模型的解决方案空间是加权模型学习使用的东西,解释了准确性的一部分。最后,我们为集合的最佳组合和选择提供了正式的前后事实分析,通过M4数据集的线性优化量化差异。我们还包括一个简短的证据,模型组合优于模型选择,后者。
translated by 谷歌翻译
杂交和集合学习技术是改善预测方法的预测能力的流行模型融合技术。通过有限的研究,将这两种有前途的方法结合在一起,本文着重于不同合奏的基础模型池中指数平滑的旋转神经网络(ES-RNN)的实用性。我们将某些最先进的结合技术和算术模型平均作为基准进行比较。我们对M4预测数据集进行了100,000个时间序列,结果表明,基于特征的预测模型平均(FFORFORA)平均是与ES-RNN的晚期数据融合的最佳技术。但是,考虑到M4的每日数据子集,堆叠是处理所有基本模型性能相似的情况下唯一成功的合奏。我们的实验结果表明,与N-Beats作为基准相比,我们达到了艺术的预测结果。我们得出的结论是,模型平均比模型选择和堆叠策略更强大。此外,结果表明,提高梯度对于实施合奏学习策略是优越的。
translated by 谷歌翻译
间歇时间序列的分层预测是研究和实证研究中的挑战。庞大的研究侧重于提高每个层次结构的准确性,尤其是底部层次的间歇时间序列。然后,在每个层次结构上调和预测,以进一步提高整体性能。在本文中,我们提出了一种与分层对准方法的预测,该方法将底部水平预测视为可变的柔和预测,以确保在层次结构的上层上的预测精度。我们采用纯深度学习预测方法的N- BEATS对高层的连续时间序列和广泛使用的基于树的算法LightGBM为底层间歇时间序列。具有对准方法的分层预测是自下而上方法的简单且有效的变体,其占难以观察到底部水平的偏差。它允许在较低级别的次优预测保留更高的整体性能。该研究在本实证研究中由第一作者在M5预测准确性竞争期间开发,排名第二。该方法也是良好的商业战略规划有益。
translated by 谷歌翻译
预测基金绩效对投资者和基金经理都是有益的,但这是一项艰巨的任务。在本文中,我们测试了深度学习模型是否比传统统计技术更准确地预测基金绩效。基金绩效通常通过Sharpe比率进行评估,该比例代表了风险调整的绩效,以确保基金之间有意义的可比性。我们根据每月收益率数据序列数据计算了年度夏普比率,该数据的时间序列数据为600多个投资于美国上市大型股票的开放式共同基金投资。我们发现,经过现代贝叶斯优化训练的长期短期记忆(LSTM)和封闭式复发单元(GRUS)深度学习方法比传统统计量相比,预测基金的Sharpe比率更高。结合了LSTM和GRU的预测的合奏方法,可以实现所有模型的最佳性能。有证据表明,深度学习和结合能提供有希望的解决方案,以应对基金绩效预测的挑战。
translated by 谷歌翻译
预测时间序列数据代表了数据科学和知识发现研究的新兴领域,其广泛应用程序从股票价格和能源需求预测到早期预测流行病。在过去的五十年中,已经提出了许多统计和机器学习方法,对高质量和可靠预测的需求。但是,在现实生活中的预测问题中,存在基于上述范式之一的模型是可取的。因此,需要混合解决方案来弥合经典预测方法与现代神经网络模型之间的差距。在这种情况下,我们介绍了一个概率自回归神经网络(PARNN)模型,该模型可以处理各种复杂的时间序列数据(例如,非线性,非季节性,远程依赖性和非平稳性)。拟议的PARNN模型是通过建立综合运动平均值和自回归神经网络的融合来构建的,以保持个人的解释性,可伸缩性和``白色盒子样''的预测行为。通过考虑相关的马尔可夫链的渐近行为,获得了渐近平稳性和几何形状的足够条件。与先进的深度学习工具不同,基于预测间隔的PARNN模型的不确定性量化。在计算实验期间,Parnn在各种各样的现实世界数据集中,超过了标准统计,机器学习和深度学习模型(例如,变形金刚,Nbeats,Deepar等),来自宏观经济学,旅游,能源,流行病学和其他人的真实数据集集合 - 期,中期和长期预测。与最先进的预报相比,与最佳方法相比,与最佳方法进行了多重比较,以展示该提案的优越性。
translated by 谷歌翻译
特征提取方法有助于降低维度并捕获相关信息。在时间序列预测(TSF)中,功能可以用作辅助信息,以实现更好的准确性。传统上,TSF中使用的功能是手工制作的,需要域知识和重要的数据工程工作。在这项研究中,我们首先介绍了静态和动态功能的概念,然后使我们能够开发自主功能,以检索不需要域知识的静态特征(FRAN)的自动回归网络(FRAN)。该方法基于CNN分类器,该分类器经过训练,可以为每个系列创建一个集体和独特的类表示,要么是从该系列的部分中或(如果可以使用的类标签),从一组同一类中。它允许以相似的行为区分序列,但要从不同的类别中进行区分,并使从分类器提取的特征具有最大歧视性。我们探讨了我们功能的解释性,并评估预测元学习环境中该方法的预测能力。我们的结果表明,在大多数情况下,我们的功能会提高准确性。一旦训练,我们的方法就会创建比统计方法快的阶数级级。
translated by 谷歌翻译
与单变量预测方法相比,在一组多个时间序列中培训的全球预测模型(GFM)在许多预测竞赛和现实世界应用方面表现出优越的结果。 ETS和Arima等统计预测模型的普及的一个方面是它们相对简单和可解释性(就相关的滞后,趋势,季节性等),而GFM通常缺乏可解释性,特别是对特定时间序列。这减少了基于预测的决策时对利益相关者的信任和信心,而不是能够理解预测。为了减轻这个问题,在这项工作中,我们提出了一种新颖的本地模型 - 不可知论解释方法来解释GFM的预测。我们培训更简单的单变量代理模型,这些模型被认为是通过自动启动或直截了当地作为时间序列的一步的全局黑匣子模型预测所获得的邻域内的邻域内的样本的可解释(例如,ETS)。需要解释哪些。之后,我们评估了对全球模型在定性和定量方面的预测的解释,例如准确性,保真度,稳定性和可理性,并且能够展示我们方法的好处。
translated by 谷歌翻译
已经显示混合方法以在预测任务中以纯粹的统计和纯粹的深度学习方法优于预测,并定量与这些预测(预测间隔)的相关不确定性。一个示例是指数平滑复发性神经网络(ES-RNN),统计预测模型和经常性神经网络变体之间的混合。 ES-RNN在Makridakis-4预测竞争中实现了9.4 \%的绝对错误。这种改进和类似的混合模型的表现主要是仅在单变量数据集上展示。将混合预测方法应用于多变量数据的困难包括($ i $)的高参数调整所涉及的高计算成本,用于与数据中固有的自动关联相关的模型(II $)挑战,以及( $ iii $)在可能难以捕获的协变量之间的复杂依赖(交叉相关)。本文介绍了多变量指数平滑的长短短期记忆(MES-LSTM),对ES-RNN的广义多元扩展,克服了这些挑战。 MES-LSTM利用了矢量化实现。我们在2019年(Covid-19)发病率数据集的几种聚集冠状病毒病中测试MES-LSTM,并发现我们的混合方法在预测准确性和预测间隔建设下对纯统计和深度学习方法进行了一致的,显着改善。
translated by 谷歌翻译
Classifying forecasting methods as being either of a "machine learning" or "statistical" nature has become commonplace in parts of the forecasting literature and community, as exemplified by the M4 competition and the conclusion drawn by the organizers. We argue that this distinction does not stem from fundamental differences in the methods assigned to either class. Instead, this distinction is probably of a tribal nature, which limits the insights into the appropriateness and effectiveness of different forecasting methods. We provide alternative characteristics of forecasting methods which, in our view, allow to draw meaningful conclusions. Further, we discuss areas of forecasting which could benefit most from cross-pollination between the ML and the statistics communities.
translated by 谷歌翻译
传染病仍然是全世界人类疾病和死亡的主要因素之一,其中许多疾病引起了流行的感染波。特定药物和预防疫苗防止大多数流行病的不可用,这使情况变得更糟。这些迫使公共卫生官员,卫生保健提供者和政策制定者依靠由流行病的可靠预测产生的预警系统。对流行病的准确预测可以帮助利益相关者调整对手的对策,例如疫苗接种运动,人员安排和资源分配,以减少手头的情况,这可以转化为减少疾病影响的影响。不幸的是,大多数过去的流行病(例如,登革热,疟疾,肝炎,流感和最新的Covid-19)表现出非线性和非平稳性特征,这是由于它们基于季节性依赖性变化以及这些流行病的性质的扩散波动而引起的。 。我们使用基于最大的重叠离散小波变换(MODWT)自动回归神经网络分析了各种流行时期时间序列数据集,并将其称为EWNET。 MODWT技术有效地表征了流行时间序列中的非平稳行为和季节性依赖性,并在拟议的集合小波网络框架中改善了自回旋神经网络的预测方案。从非线性时间序列的角度来看,我们探讨了所提出的EWNET模型的渐近平稳性,以显示相关的马尔可夫链的渐近行为。我们还理论上还研究了学习稳定性的效果以及在拟议的EWNET模型中选择隐藏的神经元的选择。从实际的角度来看,我们将我们提出的EWNET框架与以前用于流行病预测的几种统计,机器学习和深度学习模型进行了比较。
translated by 谷歌翻译
预测可帮助企业分配资源并实现目标。在LinkedIn,产品所有者使用预测来设定业务目标,跟踪前景和监视健康。工程师使用预测有效地提供硬件。开发一种预测解决方案来满足这些需求,需要对各种时间序列进行准确,可解释的预测,并以次数至季度的频率。我们提出了Greykite,这是一个用于预测的开源Python库,已在LinkedIn上部署了二十多种用例。它的旗舰算法Silverkite提供了可解释的,快速且高度灵活的单变量预测,可捕获诸如时期增长和季节性,自相关,假期和回归剂等效果。该库通过促进数据探索,模型配置,执行和解释来实现自我服务的准确性和信任。我们的基准结果显示了来自各个域的数据集的现成速度和准确性。在过去的两年中,金融,工程和产品团队的资源计划和分配,目标设置和进度跟踪,异常检测和根本原因分析的资源团队一直信任灰金矿的预测。我们希望灰金矿对具有类似应用的预测从业者有用,这些应用需要准确,可解释的预测,这些预测捕获了与人类活动相关的时间序列共有的复杂动力学。
translated by 谷歌翻译
向量自回旋(VAR)模型已用于描述多个时间序列内部和跨多个时间序列的依赖性。这是一个固定时间序列的模型,可以扩展以允许每个系列的确定性趋势存在。在拟合VAR模型之前,在参数或非参数上逐步降低数据会导致后一部分的更多误差​​。在这项研究中,我们提出了一种称为DeepVarwt的新方法,该方法采用了深度学习方法,以最大程度地估计趋势和依赖性结构。为此目的使用了长期的短期内存(LSTM)网络。为了确保模型的稳定性,我们使用Ansley&Kohn(1986)的转换来实施自回归系数的因果关系。我们提供模拟研究和对真实数据的应用。在仿真研究中,我们使用由真实数据产生的现实趋势函数,并将估计值与真实函数/参数值进行比较。在实际数据应用程序中,我们将该模型的预测性能与文献中的最新模型进行了比较。
translated by 谷歌翻译
我们向Facebook先知推出了一位继任者,为可解释,可扩展和用户友好的预测框架制定了一个行业标准。随着时间序列数据的扩散,可说明的预测仍然是企业和运营决策的具有挑战性的任务。需要混合解决方案来弥合可解释的古典方法与可扩展深层学习模型之间的差距。我们将先知视为这样一个解决方案的前兆。然而,先知缺乏本地背景,这对于预测近期未来至关重要,并且由于其斯坦坦后代而挑战。 NeultProphet是一种基于Pytorch的混合预测框架,并用标准的深度学习方法培训,开发人员可以轻松扩展框架。本地上下文使用自动回归和协变量模块引入,可以配置为经典线性回归或作为神经网络。否则,NeultProphet保留了先知的设计理念,提供了相同的基本模型组件。我们的结果表明,NeultProcrophet在一组生成的时间序列上产生了相当或优质的质量的可解释的预测组件。 NeultProphet在各种各样的现实数据集合中占先知。对于中期预测,NeultProclecrophet将预测精度提高55%至92%。
translated by 谷歌翻译
基于预测方法的深度学习已成为时间序列预测或预测的许多应用中的首选方法,通常通常优于其他方法。因此,在过去的几年中,这些方法现在在大规模的工业预测应用中无处不在,并且一直在预测竞赛(例如M4和M5)中排名最佳。这种实践上的成功进一步提高了学术兴趣,以理解和改善深厚的预测方法。在本文中,我们提供了该领域的介绍和概述:我们为深入预测的重要构建块提出了一定深度的深入预测;随后,我们使用这些构建块,调查了最近的深度预测文献的广度。
translated by 谷歌翻译
Platelet products are both expensive and have very short shelf lives. As usage rates for platelets are highly variable, the effective management of platelet demand and supply is very important yet challenging. The primary goal of this paper is to present an efficient forecasting model for platelet demand at Canadian Blood Services (CBS). To accomplish this goal, four different demand forecasting methods, ARIMA (Auto Regressive Moving Average), Prophet, lasso regression (least absolute shrinkage and selection operator) and LSTM (Long Short-Term Memory) networks are utilized and evaluated. We use a large clinical dataset for a centralized blood distribution centre for four hospitals in Hamilton, Ontario, spanning from 2010 to 2018 and consisting of daily platelet transfusions along with information such as the product specifications, the recipients' characteristics, and the recipients' laboratory test results. This study is the first to utilize different methods from statistical time series models to data-driven regression and a machine learning technique for platelet transfusion using clinical predictors and with different amounts of data. We find that the multivariate approaches have the highest accuracy in general, however, if sufficient data are available, a simpler time series approach such as ARIMA appears to be sufficient. We also comment on the approach to choose clinical indicators (inputs) for the multivariate models.
translated by 谷歌翻译
分布式的小型太阳能光伏(PV)系统正在以快速增加的速度安装。这可能会对分销网络和能源市场产生重大影响。结果,在不同时间分辨率和视野中,非常需要改善对这些系统发电的预测。但是,预测模型的性能取决于分辨率和地平线。在这种情况下,将多个模型的预测结合到单个预测中的预测组合(合奏)可能是鲁棒的。因此,在本文中,我们提供了对五个最先进的预测模型的性能以及在多个分辨率和视野下的现有预测组合的比较和见解。我们提出了一种基于粒子群优化(PSO)的预测组合方法,该方法将通过加权单个模型产生的预测来使预报掌握能够为手头的任务产生准确的预测。此外,我们将提出的组合方法的性能与现有的预测组合方法进行了比较。使用现实世界中的PV电源数据集进行了全面的评估,该数据集在美国三个位置的25个房屋中测得。在四种不同的分辨率和四个不同视野之间的结果表明,基于PSO的预测组合方法的表现优于使用任何单独的预测模型和其他预测组合的使用,而平均平均绝对规模误差降低了3.81%,而最佳性能则最佳性能单个个人模型。我们的方法使太阳预报员能够为其应用产生准确的预测,而不管预测分辨率或视野如何。
translated by 谷歌翻译
中期地平线(几个月到一年)功耗预测是能源部门的主要挑战,特别是当考虑概率预测时。我们提出了一种新的建模方法,该方法包含趋势,季节性和天气条件,作为具有自回归特征的浅神经网络中的解析变量。我们在将其应用于新英格兰的日常电力消耗的一年试验集上获得优异的效果预测。一方面已经验证了实现的电力消耗概率预测的质量,将结果与其他标准进行比较密度预测模型,另一方面,考虑在能量扇区中经常使用的措施,作为弹球损失和CI逆退。
translated by 谷歌翻译