We introduce the MAsked Generative VIdeo Transformer, MAGVIT, to tackle various video synthesis tasks with a single model. We introduce a 3D tokenizer to quantize a video into spatial-temporal visual tokens and propose an embedding method for masked video token modeling to facilitate multi-task learning. We conduct extensive experiments to demonstrate the quality, efficiency, and flexibility of MAGVIT. Our experiments show that (i) MAGVIT performs favorably against state-of-the-art approaches and establishes the best-published FVD on three video generation benchmarks, including the challenging Kinetics-600. (ii) MAGVIT outperforms existing methods in inference time by two orders of magnitude against diffusion models and by 60x against autoregressive models. (iii) A single MAGVIT model supports ten diverse generation tasks and generalizes across videos from different visual domains. The source code and trained models will be released to the public at https://magvit.cs.cmu.edu.
translated by 谷歌翻译
The problem of broad practical interest in spatiotemporal data analysis, i.e., discovering interpretable dynamic patterns from spatiotemporal data, is studied in this paper. Towards this end, we develop a time-varying reduced-rank vector autoregression (VAR) model whose coefficient matrices are parameterized by low-rank tensor factorization. Benefiting from the tensor factorization structure, the proposed model can simultaneously achieve model compression and pattern discovery. In particular, the proposed model allows one to characterize nonstationarity and time-varying system behaviors underlying spatiotemporal data. To evaluate the proposed model, extensive experiments are conducted on various spatiotemporal data representing different nonlinear dynamical systems, including fluid dynamics, sea surface temperature, USA surface temperature, and NYC taxi trips. Experimental results demonstrate the effectiveness of modeling spatiotemporal data and characterizing spatial/temporal patterns with the proposed model. In the spatial context, the spatial patterns can be automatically extracted and intuitively characterized by the spatial modes. In the temporal context, the complex time-varying system behaviors can be revealed by the temporal modes in the proposed model. Thus, our model lays an insightful foundation for understanding complex spatiotemporal data in real-world dynamical systems. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/vars.
translated by 谷歌翻译
最近利用多模式数据旨在建立面部动作单元(AU)检测模型的研究。但是,由于多模式数据的异质性,多模式表示学习成为主要挑战之一。一方面,很难通过仅通过一个特征提取器从多模式中提取相关特征,另一方面,先前的研究并未完全探索多模式融合策略的潜力。例如,早期融合通常需要在推理期间存在所有方式,而晚期融合和中间融合则增加了特征学习的网络大小。与晚期融合的大量工作相反,早期融合探索渠道信息的作品很少。本文提出了一个新型的多模式网络,称为多模式通道混合(MCM),作为一种预训练的模型,以学习强大的表示形式,以促进多模式融合。我们在自动面部动作单元检测的下游任务上评估学习的表示形式。具体而言,它是一个单个流编码器网络,该网络在早期融合中使用频道混合模块,在下游检测任务中仅需要一种模态。我们还利用蒙版的VIT编码器从融合图像中学习特征,并使用两个VIT解码器重建两个模式。我们已经在两个公共数据集(称为BP4D和DISFA)上进行了广泛的实验,以评估所提出的多模式框架的有效性和鲁棒性。结果表明我们的方法是可比或优越的,它与最新的基线方法相当。
translated by 谷歌翻译
没有人类在真空中开车。她/他必须与其他道路使用者进行谈判,以在社交交通场景中实现目标。理性的人类驾驶员可以通过隐式通信以社交兼容的方式与其他道路使用者进行互动,以便在互动密集型,关键的安全环境中平稳地完成其驾驶任务。本文旨在审查现有的方法和理论,以帮助理解和重新考虑人类驱动因素与社会自主驾驶之间的互动。我们进行此调查以寻求一系列基本问题的答案:1)道路交通场景中的社交互动是什么? 2)如何衡量和评估社会互动? 3)如何建模和揭示社会互动的过程? 4)人类驾驶员如何达成隐性协议并在社交互动方面平稳地谈判?本文回顾了建模和学习人类驱动因素之间的社会互动的各种方法,从优化理论和图形模型到社会力量理论以及行为和认知科学。我们还重点介绍了一些新的方向,关键挑战和未来研究的开头问题。
translated by 谷歌翻译
已经对蜘蛛/莎拉/风暴等方差降低技术进行了广泛的研究,以提高随机非凸优化的收敛速率,这些优化通常维护和更新跨迭代中单个函数的估计器序列。 {\如果我们需要在迭代中跟踪多个功能映射,但是只有访问$ \ Mathcal {o}的随机样品(1)$在每次迭代时$ functional映射?}在解决一个新兴的家族时,有一个重要的应用程序以$ \ sum_ {i = 1}^m f_i(g_i(\ mathbf {w}))的形式形式的耦合组合优化问题,其中$ g_i $可通过随机甲骨文访问$ g_i $。关键问题是跟踪和估计$ \ mathbf g(\ mathbf {w})=(g_1(\ mathbf {w}),\ ldots,g_m(\ mathbf {w})$ $ \ mathbf g(\ mathbf {w})$具有$ m $块,只允许探测$ \ mathcal {o}(1)$块才能达到其随机值和雅各布人。为了提高解决这些问题的复杂性,我们提出了一种新型随机方法,称为多块单个探针差异(MSVR)估计器,以跟踪$ \ mathbf g(\ mathbf {w})$的序列。它的灵感来自风暴,但引入了定制的误差校正术语,不仅可以减轻所选块的随机样品中的噪声,而且还可以减轻那些未进行采样的块中的噪声。在MSVR估计器的帮助下,我们开发了几种算法来解决上述组成问题,并在具有非convex/convex/convex/strank strank convex目标的各种设置中具有改善的复杂性。我们的结果在几个方面都改善了先前的结果,包括样本复杂性和对强凸参数的依赖。多任务深度AUC最大化的经验研究表明,使用新估计器的性能更好。
translated by 谷歌翻译
在这项工作中,我们将解决方案介绍给Epic-Kitchens-100 2022动作检测挑战。提出了一阶段动作检测变压器(OADT)来对视频段的时间连接进行建模。借助OADT,可以同时识别类别和时间边界。在完成了从不同功能训练的多个OADT模型之后,我们的模型可以达到21.28 \%的动作图,并在操作检测挑战的测试集中排名第一。
translated by 谷歌翻译
现代时间序列数据集通常是高维,不完整/稀疏和非组织的。这些属性阻碍了时间序列预测和分析的可扩展和高效解决方案的开发。为了应对这些挑战,我们提出了一个非平稳的时间矩阵分解(NOTMF)模型,其中使用矩阵分解来重建整个时间序列矩阵和矢量自回旋(var)过程,该过程施加在适当差异的时间因子矩阵的副本上。这种方法不仅保留了数据的低级属性,还提供了一致的时间动力。 NOTMF的学习过程涉及两个因子矩阵和VAR系数矩阵集合的优化。为了有效地解决优化问题,我们得出了一个交替的最小化框架,其中使用共轭梯度和最小二乘方法来解决子问题。特别是,使用共轭梯度方法提供了有效的例程,并允许我们在大规模问题上应用NOTMF。通过对Uber运动速度数据集进行的广泛实验,我们证明了NOTMF的卓越准确性和有效性,而不是其他基线模型。我们的结果还证实了解决现实世界中时间序列数据(如时空交通流/速度)的非平稳性的重要性。
translated by 谷歌翻译
在本文中,我们从优化的角度研究了对比度学习,旨在分析和解决现有的对比学习方法的基本问题,这些方法依靠大批量大小或大型矢量词典。我们考虑了对比度学习的全球目标,该目标将每个正对与锚点的所有负对对比。从优化的角度来看,我们解释了为什么诸如SIMCLR之类的现有方法需要大批量大小才能获得令人满意的结果。为了消除此类要求,我们提出了一种记忆有效的随机优化算法,用于求解名为SOGCLR的对比度学习的全局目标。我们表明,在足够数量的迭代次数之后,在合理条件下,其优化误差可以忽略不计,或者对于稍有不同的全局对比目标而减少。从经验上讲,我们证明具有小批量大小的SOGCLR(例如256)可以在Imagenet-1k上的自我监督学习任务上获得与具有较大批量大小(例如8192)的SIMCLR相似的性能。我们还试图证明所提出的优化技术是通用的,可以应用于解决其他对比损失,例如双峰对比度学习的双向对比损失。提出的方法是在我们开源的图书馆libauc(www.libauc.org)中实现的。
translated by 谷歌翻译
NDCG是标准化的折扣累积增益,是信息检索和机器学习中广泛使用的排名指标。但是,仍然缺乏最大化NDCG的有效且可证明的随机方法,尤其是对于深层模型。在本文中,我们提出了一种优化NDCG及其最高$ K $变体的原则方法。首先,我们制定了一个新颖的组成优化问题,以优化NDCG替代物,以及一个新型的双层构图优化问题,用于优化顶部$ K $ NDCG代理。然后,我们开发有效的随机算法,并为非凸目标提供可证明的收敛保证。与现有的NDCG优化方法不同,我们的算法量表的均量复杂性与迷你批量大小,而不是总项目的数量。为了提高深度学习的有效性,我们通过使用初始热身和停止梯度操作员进一步提出实用策略。多个数据集的实验结果表明,我们的方法在NDCG方面优于先前的排名方法。据我们所知,这是首次提出随机算法以优化具有可证明的收敛保证的NDCG。我们提出的方法在https://libauc.org/的libauc库中实现。
translated by 谷歌翻译
虽然已知辍学是一种成功的正规化技术,但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念,这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积,并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点,即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设,即可以将重量扩张视为增强的概括能力的\ emph {指示器},而不仅仅是副产品,我们还研究了实现重量扩展的其他方法(resp。\ contraction \ contraction ),发现它们通常会导致(分别\ \降低)的概括能力。这表明辍学是一种有吸引力的正规化器,因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用,同时为确定正规化器铺平了道路,这些正规化器有望通过体重扩张来改善概括。
translated by 谷歌翻译