Spatiotemporal traffic data imputation is of great significance in intelligent transportation systems and data-driven decision-making processes. To make an accurate reconstruction on partially observed traffic data, we assert the importance of characterizing both global and local trends in traffic time series. In the literature, substantial prior works have demonstrated the effectiveness of utilizing low-rankness property of traffic data by matrix/tensor completion models. In this study, we first introduce a Laplacian kernel to temporal regularization for characterizing local trends in traffic time series, which can be formulated in the form of circular convolution. Then, we develop a low-rank Laplacian convolutional representation (LCR) model by putting the nuclear norm of a circulant matrix and the Laplacian temporal regularization together, which is proved to meet a unified framework that takes a fast Fourier transform solution in a relatively low time complexity. Through extensive experiments on some traffic datasets, we demonstrate the superiority of LCR for imputing traffic time series of various time series behaviors (e.g., data noises and strong/weak periodicity). The proposed LCR model is an efficient and effective solution to large-scale traffic data imputation over the existing baseline models. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/transdim.
translated by 谷歌翻译
多维时空数据的概率建模对于许多现实世界应用至关重要。然而,现实世界时空数据通常表现出非平稳性的复杂依赖性,即相关结构随位置/时间而变化,并且在空间和时间之间存在不可分割的依赖性,即依赖关系。开发有效和计算有效的统计模型,以适应包含远程和短期变化的非平稳/不可分割的过程,成为一项艰巨的任务,尤其是对于具有各种腐败/缺失结构的大规模数据集。在本文中,我们提出了一个新的统计框架 - 贝叶斯互补内核学习(BCKL),以实现多维时空数据的可扩展概率建模。为了有效地描述复杂的依赖性,BCKL与短距离时空高斯过程(GP)相结合的内核低级分解(GP),其中两个组件相互补充。具体而言,我们使用多线性低级分组组件来捕获数据中的全局/远程相关性,并基于紧凑的核心函数引入加法短尺度GP,以表征其余的局部变异性。我们为模型推断开发了有效的马尔可夫链蒙特卡洛(MCMC)算法,并在合成和现实世界时空数据集上评估了所提出的BCKL框架。我们的结果证实了BCKL在提供准确的后均值和高质量不确定性估计方面的出色表现。
translated by 谷歌翻译
现代时间序列数据集通常是高维,不完整/稀疏和非组织的。这些属性阻碍了时间序列预测和分析的可扩展和高效解决方案的开发。为了应对这些挑战,我们提出了一个非平稳的时间矩阵分解(NOTMF)模型,其中使用矩阵分解来重建整个时间序列矩阵和矢量自回旋(var)过程,该过程施加在适当差异的时间因子矩阵的副本上。这种方法不仅保留了数据的低级属性,还提供了一致的时间动力。 NOTMF的学习过程涉及两个因子矩阵和VAR系数矩阵集合的优化。为了有效地解决优化问题,我们得出了一个交替的最小化框架,其中使用共轭梯度和最小二乘方法来解决子问题。特别是,使用共轭梯度方法提供了有效的例程,并允许我们在大规模问题上应用NOTMF。通过对Uber运动速度数据集进行的广泛实验,我们证明了NOTMF的卓越准确性和有效性,而不是其他基线模型。我们的结果还证实了解决现实世界中时间序列数据(如时空交通流/速度)的非平稳性的重要性。
translated by 谷歌翻译
流量数据长期遭受缺失和腐败的困扰,从而导致随后的智能运输系统(ITS)应用程序的准确性和效用降低。注意到流量数据的固有低级属性,大量研究将缺少的流量数据恢复为低级张量完成(LRTC)问题。由于LRTC中的秩最小化的非跨性别性和离散性,现有方法要么用凸面替代等级代替等级替代等级函数,要么以涉及许多参数的非convex替代物,或近似等级。在这项研究中,我们提出了一个用于交通数据恢复的无参数的非凸张量完成模型(TC-PFNC),其中设计了基于日志的松弛项以近似张量代数级别。此外,以前的研究通常认为观察结果是可靠的,没有任何异常值。因此,我们通过对潜在的流量数据异常值进行建模,将TC-PFNC扩展到了强大的版本(RTC-PFNC),该数据可以从部分和损坏的观测值中恢复缺失的值并在观测中删除异常。基于交替的方向乘数法(ADMM)详细阐述了TC-PFNC和RTC-PFNC的数值解。在四个现实世界流量数据集上进行的广泛实验结果表明,所提出的方法在缺失和损坏的数据恢复中都优于其他最先进的方法。本文使用的代码可在以下网址获得:https://github.com/younghe49/t-ITSPFNC。
translated by 谷歌翻译
本文使用移动传感器的稀疏观测来研究交通状态估计问题(TSE)问题。大多数现有的TSE方法要么依赖定义明确的物理交通流模型,要么需要大量的仿真数据作为训练机器学习模型的输入。与以前的研究不同,我们在本文中提出了纯粹的数据驱动和模型的解决方案。我们将TSE视为时空矩阵完成/插值问题,并应用时空延迟嵌入以将原始不完整的矩阵转换为四阶Hankel结构张量。通过对这种张量结构施加低级假设,我们可以以数据驱动的方式近似和表征全局和局部时空模式。我们使用平衡时空展开的截断核定标(其中每一列代表原始矩阵中小斑块的矢量化)来近似张量等级。开发了基于乘数交替方向方法(ADMM)的有效解决方案算法用于模型学习。所提出的框架仅涉及两个超参数,即空间和时间窗口长度,鉴于数据稀少度的程度,它们易于设置。我们对现实世界高分辨率轨迹数据进行数值实验,我们的结果证明了在某些具有挑战性的情况下所提出模型的有效性和优势。
translated by 谷歌翻译
The problem of broad practical interest in spatiotemporal data analysis, i.e., discovering interpretable dynamic patterns from spatiotemporal data, is studied in this paper. Towards this end, we develop a time-varying reduced-rank vector autoregression (VAR) model whose coefficient matrices are parameterized by low-rank tensor factorization. Benefiting from the tensor factorization structure, the proposed model can simultaneously achieve model compression and pattern discovery. In particular, the proposed model allows one to characterize nonstationarity and time-varying system behaviors underlying spatiotemporal data. To evaluate the proposed model, extensive experiments are conducted on various spatiotemporal data representing different nonlinear dynamical systems, including fluid dynamics, sea surface temperature, USA surface temperature, and NYC taxi trips. Experimental results demonstrate the effectiveness of modeling spatiotemporal data and characterizing spatial/temporal patterns with the proposed model. In the spatial context, the spatial patterns can be automatically extracted and intuitively characterized by the spatial modes. In the temporal context, the complex time-varying system behaviors can be revealed by the temporal modes in the proposed model. Thus, our model lays an insightful foundation for understanding complex spatiotemporal data in real-world dynamical systems. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/vars.
translated by 谷歌翻译
最近,刘和张研究了从压缩传感的角度研究了时间序列预测的相当具有挑战性的问题。他们提出了一个没有学习的方法,名为卷积核规范最小化(CNNM),并证明了CNNM可以完全从其观察到的部分恢复一系列系列的部分,只要该系列是卷积的低级。虽然令人印象深刻,但是每当系列远离季节性时可能不满足卷积的低秩条件,并且实际上是脆弱的趋势和动态的存在。本文试图通过将学习,正常的转换集成到CNNM中,以便将一系列渐开线结构转换为卷积低等级的常规信号的目的。我们证明,由于系列的变换是卷积低级的转换,所以,所产生的模型是基于学习的基于学习的CNNM(LBCNM),严格成功地识别了一个系列的未来部分。为了学习可能符合所需成功条件的适当转换,我们设计了一种基于主成分追求(PCP)的可解释方法。配备了这种学习方法和一些精心设计的数据论证技巧,LBCNM不仅可以处理时间序列的主要组成部分(包括趋势,季节性和动态),还可以利用其他一些预测方法提供的预测;这意味着LBCNNM可以用作模型组合的一般工具。从时间序列数据库(TSDL)和M4竞争(M4)的100,452个现实世界时间序列的大量实验证明了LBCNNM的卓越性能。
translated by 谷歌翻译
从高度不足的数据中恢复颜色图像和视频是面部识别和计算机视觉中的一项基本且具有挑战性的任务。通过颜色图像和视频的多维性质,在本文中,我们提出了一种新颖的张量完成方法,该方法能够有效探索离散余弦变换(DCT)下张量数据的稀疏性。具体而言,我们介绍了两个``稀疏 +低升级''张量完成模型,以及两种可实现的算法来找到其解决方案。第一个是基于DCT的稀疏加权核标准诱导低级最小化模型。第二个是基于DCT的稀疏加上$ P $换图映射引起的低秩优化模型。此外,我们因此提出了两种可实施的增强拉格朗日算法,以解决基础优化模型。一系列数值实验在内,包括颜色图像介入和视频数据恢复表明,我们所提出的方法的性能要比许多现有的最新张量完成方法更好,尤其是对于缺少数据比率较高的情况。
translated by 谷歌翻译
最近,通过双段正则化的镜头,基于基于低矩阵完成的无监督学习的兴趣复兴,这显着改善了多学科机器学习任务的性能,例如推荐系统,基因型插图和图像插入。虽然双颗粒正则化贡献了成功的主要部分,但通常涉及计算昂贵的超参数调谐。为了避免这样的缺点并提高完成性能,我们提出了一种新颖的贝叶斯学习算法,该算法会自动学习与双重正规化相关的超参数,同时保证矩阵完成的低级别。值得注意的是,设计出一个小说的先验是为了促进矩阵的低级别并同时编码双电图信息,这比单圈对应物更具挑战性。然后探索所提出的先验和可能性函数之间的非平凡条件偶联性,以使有效算法在变化推理框架下得出。使用合成和现实世界数据集的广泛实验证明了针对各种数据分析任务的拟议学习算法的最先进性能。
translated by 谷歌翻译
低级张力完成已广泛用于计算机视觉和机器学习。本文开发了一种新型多模态核心张量分解(MCTF)方法,与张量低秩测量和该措施的更好的非凸弛豫形式(NC-MCTF)。所提出的模型编码由Tucker和T-SVD提供的一般张量的低秩见解,因此预计将在多个方向上同时模拟光谱低秩率,并准确地恢复基于几个观察到的条目的内在低秩结构的数据。此外,我们研究了MCTF和NC-MCTF正则化最小化问题,并设计了一个有效的块连续上限最小化(BSUM)算法来解决它们。该高效的求解器可以将MCTF扩展到各种任务,例如张量完成。一系列实验,包括高光谱图像(HSI),视频和MRI完成,确认了所提出的方法的卓越性能。
translated by 谷歌翻译
本文从压缩感测的角度研究时间序列预测(TSF)的问题。首先,我们将TSF转换为具有任意采样(TCAS)的更加包容性问题,称为TCOR完成,该问题是从其条目的子集中以任意方式恢复张量。虽然已知在Tucker低级别的框架中,但理论上是不可能根据一些任意选择的条目识别目标张量,在这项工作中,我们将表明TCAS根据称为新概念的光明粘附卷积低秩,这是众所周知的傅立叶稀疏性的概括。然后我们介绍了一个凸面的卷积核规范最小化(CNNM),我们证明CNNM在求解TCA时,只要采样条件取决于目标张量的卷积等级 - 遵守。该理论为制作给定数量预测所需的最小采样大小提供了有意义的答案。单变量时间序列,图像和视频的实验显示令人鼓舞的结果。
translated by 谷歌翻译
考虑以张量流的形式实时收集多个季节性时间序列。现实世界的张量流通常包括缺少条目(例如,由于网络断开连接)和同时出现的意外离群值(例如,由于系统错误)。鉴于这样的现实张量流,我们如何估计缺失条目并实时准确预测未来的进化?在这项工作中,我们通过引入索非亚来回答这个问题,索非亚是现实世界张量流的强大分解方法。简而言之,索非亚平稳并紧密地整合了张量分解,离群值的去除和颞模式检测,它们自然会相互加强。此外,尽管缺少条目,索非亚以线性的方式将它们整合在一起。我们通过实验表明,索非亚是(a)稳健而准确的:屈服误差降低了76%,预测误差降低了71%; (b)快速:比第二准确的竞争对手快935倍; (c)可扩展:与每个时间步长的新条目数量缩放。
translated by 谷歌翻译
我们介绍和分析了多元奇异频谱分析(MSSA)的变体,这是一种流行的时间序列方法,用于启用和预测多元时间序列。在我们介绍的时空因素模型下,给定$ n $时间序列和$ t $观测时间序列,我们为插补和样本外预测均有效地扩展为$ 1 / \ sqrt,为预测和样本预测有效地缩放均值{\ min(n,t)t} $。这是一个改进:(i)$ 1 /\ sqrt {t} $ SSA的错误缩放,MSSA限制对单变量时间序列; (ii)$ 1/\ min(n,t)$对于不利用数据中时间结构的矩阵估计方法的错误缩放。我们引入的时空模型包括:谐波,多项式,可区分的周期函数和持有人连续函数的任何有限总和和产物。在时空因素模型下,我们的样本外预测结果可能对在线学习具有独立的兴趣。从经验上讲,在基准数据集上,我们的MSSA变体通过最先进的神经网络时间序列方法(例如,DEEPAR,LSTM)竞争性能,并且明显优于诸如矢量自动化(VAR)之类的经典方法。最后,我们提出了MSSA的扩展:(i)估计时间序列的时变差异的变体; (ii)一种张量变体,对于$ n $和$ t $的某些制度具有更好的样本复杂性。
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
缺少数据是数据驱动的智能运输系统(ITS)中不可避免且常见的问题。在过去的十年中,学者们对丢失的流量数据的恢复进行了许多研究,但是如何充分利用时空交通模式以改善恢复性能仍然是一个开放的问题。针对流量速度数据的时空特征,本文将缺失数据的恢复视为矩阵完成问题,并根据隐藏的功能分析提出了一种时空的交通数据完成方法,该方法发现时空模式和基础模式从不完整数据的结构完成恢复任务。因此,我们引入空间和时间相关性,以捕获每个维度的主要基础特征。最后,这些潜在功能通过潜在功能分析应用于恢复流量数据。实验和评估结果表明,模型的评估标准值很小,这表明该模型具有更好的性能。结果表明该模型可以准确估计连续缺少的数据。
translated by 谷歌翻译
Nonnegative Tucker Factorization (NTF) minimizes the euclidean distance or Kullback-Leibler divergence between the original data and its low-rank approximation which often suffers from grossly corruptions or outliers and the neglect of manifold structures of data. In particular, NTF suffers from rotational ambiguity, whose solutions with and without rotation transformations are equally in the sense of yielding the maximum likelihood. In this paper, we propose three Robust Manifold NTF algorithms to handle outliers by incorporating structural knowledge about the outliers. They first applies a half-quadratic optimization algorithm to transform the problem into a general weighted NTF where the weights are influenced by the outliers. Then, we introduce the correntropy induced metric, Huber function and Cauchy function for weights respectively, to handle the outliers. Finally, we introduce a manifold regularization to overcome the rotational ambiguity of NTF. We have compared the proposed method with a number of representative references covering major branches of NTF on a variety of real-world image databases. Experimental results illustrate the effectiveness of the proposed method under two evaluation metrics (accuracy and nmi).
translated by 谷歌翻译
张量稀疏建模是一种有希望的方法,在整个科学和工程学中,取得了巨大的成功。众所周知,实际应用中的各种数据通常由多种因素产生,因此使用张量表示包含多个因素内部结构的数据。但是,与矩阵情况不同,构建合理的稀疏度量张量是一项相对困难且非常重要的任务。因此,在本文中,我们提出了一种称为张量全功能度量(FFM)的新张量稀疏度度量。它可以同时描述张量的每个维度的特征信息以及两个维度之间的相关特征,并将塔克等级与张量管等级连接。这种测量方法可以更全面地描述张量的稀疏特征。在此基础上,我们建立了其非凸放松,并将FFM应用于低级张量完成(LRTC)和张量鲁棒的主成分分析(TRPCA)。提出了基于FFM的LRTC和TRPCA模型,并开发了两种有效的交替方向乘数法(ADMM)算法来求解所提出的模型。各种实际数值实验证实了超出最先进的方法的优势。
translated by 谷歌翻译
张张量强大的主成分分析(TRPCA)旨在恢复因稀疏噪声破坏的低排名张量,在许多真实应用中引起了很多关注。本文开发了一种新的全球加权TRPCA方法(GWTRPCA),该方法是第一种同时考虑额外域内切片和额叶间切片奇异值的重要性。利用这些全球信息,GWTRPCA惩罚了较大的单数值,并为其分配了较小的权重。因此,我们的方法可以更准确地恢复低管级组件。此外,我们提出了通过改良的考奇估计量(MCE)的有效自适应学习策略,因为重量设置在GWTRPCA的成功中起着至关重要的作用。为了实现GWTRPCA方法,我们使用乘数的交替方向方法(ADMM)方法设计了一种优化算法。对现实世界数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
随着数据采集技术的发展,多视图学习已成为一个热门话题。一些多视图学习方法假设多视图数据已经完成,这意味着所有实例都存在,但这太理想了。某些用于传递不完整多视图数据的基于张量的方法已经出现并取得了更好的结果。但是,仍然存在一些问题,例如使用传统的张量规范,这使计算高且无法处理样本外。为了解决这两个问题,我们提出了一种新的不完整的多视图学习方法。定义了一个新的张量规范来实现图形张量数据恢复。然后将恢复的图定于样品的一致的低维表示。此外,自适应权重配备了每种视图,以调整不同视图的重要性。与现有方法相比,我们的方法也不仅仅探讨视图之间的一致性,但也通过使用学习的投影矩阵获得了新样本的低维表示。基于不精确的增强Lagrange乘数(ALM)方法的有效算法旨在解决模型,并证明了收敛性。四个数据集的实验结果显示了我们方法的有效性。
translated by 谷歌翻译
张量完成是从部分观察到的条目中估算高阶数据缺失值的问题。由于盛行异常值而引起的数据腐败对传统的张量完成算法提出了重大挑战,这促进了减轻异常值效果的强大算法的发展。但是,现有的强大方法在很大程度上假定腐败很少,这可能在实践中可能不存在。在本文中,我们开发了一种两阶段的稳健张量完成方法,以处理张张量的视觉数据,并具有大量的严重损坏。提出了一个新颖的粗到精细框架,该框架使用全局粗完成结果来指导局部贴剂细化过程。为了有效地减轻大量异常值对张量恢复的影响,我们开发了一种新的基于M估计器的稳健张环回收方法,该方法可以自适应地识别异常值并减轻其在优化中的负面影响。实验结果表明,所提出的方法优于最先进的稳定算法以完成张量。
translated by 谷歌翻译