Recommender systems are a long-standing research problem in data mining and machine learning. They are incremental in nature, as new user-item interaction logs arrive. In real-world applications, we need to periodically train a collaborative filtering algorithm to extract user/item embedding vectors and therefore, a time-series of embedding vectors can be naturally defined. We present a time-series forecasting-based upgrade kit (TimeKit), which works in the following way: it i) first decides a base collaborative filtering algorithm, ii) extracts user/item embedding vectors with the base algorithm from user-item interaction logs incrementally, e.g., every month, iii) trains our time-series forecasting model with the extracted time- series of embedding vectors, and then iv) forecasts the future embedding vectors and recommend with their dot-product scores owing to a recent breakthrough in processing complicated time- series data, i.e., neural controlled differential equations (NCDEs). Our experiments with four real-world benchmark datasets show that the proposed time-series forecasting-based upgrade kit can significantly enhance existing popular collaborative filtering algorithms.
translated by 谷歌翻译
许多网络攻击始于传播网络钓鱼URL。在单击这些网络钓鱼URL时,受害者的私人信息会泄漏给攻击者。已经提出了几种机器学习方法来检测网络钓鱼URL。然而,检测出逃避的网络钓鱼URL,即通过操纵模式假装良性的网络钓鱼URL仍然尚未探索。在许多情况下,攻击者i)重复使用网络钓鱼网页,因为制造完全全新的套装成本非平凡费用,ii)偏爱不需要私人信息并且比其他人更便宜的托管公司,iii)喜欢共享的托管服务成本效率和IV)有时使用良性域,IP地址和URL字符串模式来逃避现有的检测方法。受这些行为特征的启发,我们提出了一种基于网络的推理方法,以准确检测具有合法模式的网络钓鱼URL,即逃避稳定。在网络方法中,即使在逃避之后,网络钓鱼URL仍将被确定为网络师,除非同时逃避网络中的大多数邻居。我们的方法始终在各种实验测试中显示出更好的检测性能,而不是最先进的方法,例如,对于我们的方法,对于最佳功能方法而言,我们的方法为0.89,而0.84。
translated by 谷歌翻译
许多美国都市城市因严重缺乏停车位而臭名昭著。为此,我们提出了一个主动的预测驱动优化框架,以动态调整停车价格。我们使用最先进的深度学习技术,例如神经普通微分方程(节点)来设计我们未来的停车占用率预测模型,鉴于历史占用率和价格信息。由于节点的持续和射击特性,因此,我们设计了一种单次价格优化方法,给定预训练的预测模型,该模型只需要一个迭代才能找到最佳解决方案。换句话说,我们优化了预先训练的预测模型的价格输入,以实现停车位的目标占用率。我们对在旧金山和西雅图收集的数据进行了实验多年。与各种时间或时空预测模型相比,我们的预测模型显示出最佳准确性。我们的单发优化方法在搜索时间方面极大地优于其他黑框和白色框搜索方法,并且始终返回最佳价格解决方案。
translated by 谷歌翻译
表格数据通常包含私人和重要信息;因此,必须在与他人共享之前采取预防措施。尽管已经提出了几种方法(例如,差异隐私和K-匿名性)以防止信息泄漏,但近年来,表格数据合成模型已变得流行,因为它们可以在数据实用程序和隐私之间进行易于权衡。但是,最近的研究表明,图像数据的生成模型容易受到会员推理攻击的影响,这可以确定是否使用给定记录来训练受害者合成模型。在本文中,我们在表格数据合成的背景下研究了成员推理攻击。我们在两个攻击方案(即一个黑色框和一个白盒攻击)下对4个最先进的表格数据合成模型进行实验,并发现成员推理攻击会严重危害这些模型。下一步,我们进行实验,以评估两种流行的差异深度学习训练算法DP-SGD和DP-GAN如何能够保护模型免受攻击。我们的主要发现是,两种算法都可以通过牺牲生成质量来减轻这种威胁。代码和数据可用:https://github.com/jayoungkim408/mia
translated by 谷歌翻译
Xia等人的最新工作。利用了经典动量加速梯度下降的连续限制,并提出了重球神经odes。尽管该模型对香草神经ODE提供了计算效率和高效用,但这种方法通常会导致内部动力学的过度调整,从而导致对模型的不稳定训练。先前的工作通过使用临时方法来解决此问题,例如,使用特定的激活函数来界定内部动力学,但是所得模型不能满足确切的重球ode。在这项工作中,我们提出了自适应动量估计神经ODE(adamnodes),以适应性地控制经典动量方法的加速度。我们发现它的伴随状态还满足了Adamode,并且不需要先前工作所采用的临时解决方案。在评估中,我们表明adamnodes对现有神经ODE实现了最低的训练损失和功效。我们还表明,与基于经典动量的神经ODE相比,Adamnodes具有更好的训练稳定性。这一结果阐明了调整优化界提出的技术,以进一步改善神经氧的训练和推断。我们的代码可在https://github.com/pmcsh04/adamnode上找到。
translated by 谷歌翻译
基于得分的生成模型(SGM)是最近提出的深层生成任务范式,现在显示出最新的采样性能。众所周知,原始SGM设计解决了生成三元素的两个问题:i)取样质量,ii)采样多样性。但是,三元素的最后一个问题没有解决,即,众所周知,他们的训练/采样复杂性很高。为此,将SGM蒸馏成更简单的模型,例如生成对抗网络(GAN),目前正在引起很多关注。我们提出了一种增强的蒸馏方法,称为直透插值GAN(SPI-GAN),可以将其与最新的基于快捷方式的蒸馏方法进行比较,称为Denoising扩散GAN(DD-GAN)。但是,我们的方法对应于一种极端方法,该方法不使用反向SDE路径的任何中间快捷方式,在这种情况下,DD-GAN无法获得良好的结果。然而,我们的直径插值方法极大地稳定了整体训练过程。结果,就CIFAR-10,Celeba-HQ-256和Lsun-Church-256的采样质量/多样性/时间而言,SPI-GAN是最佳模型之一。
translated by 谷歌翻译
基于分数的生成模型(SGM)是生成假图像的最新突破。已知SGM可以超越其他生成模型,例如生成对抗网络(GAN)和变异自动编码器(VAE)。在这项工作中,我们受到了他们的巨大成功的启发,我们将它们完全自定义以生成伪造的表格数据。特别是,我们对过度采样较小的课程感兴趣,因为不平衡的课程经常导致次优训练成果。据我们所知,我们是第一个提出基于得分的表格数据超采样方法的人。首先,我们必须重新设计自己的分数网络,因为我们必须处理表格数据。其次,我们为我们的生成方法提出了两个选项:前者等同于表格数据的样式传输,后者使用SGMS的标准生成策略。最后,我们定义了一种微调方法,该方法进一步提高了过度采样质量。在我们使用6个数据集和10个基线的实验中,我们的方法在所有情况下都优于其他过采样方法。
translated by 谷歌翻译
受微分方程式启发的深度学习是最近的研究趋势,它标志着许多机器学习任务的最先进的表现。其中,具有神经控制的微分方程(NCDE)的时间序列建模被认为是突破。在许多情况下,基于NCDE的模型不仅比复发性神经网络(RNN)提供了更好的准确性,而且还可以处理不规则的时间序列。在这项工作中,我们通过重新设计其核心部分,即从离散的时间序列输入产生连续路径来增强NCDES。 NCDE通常使用插值算法将离散的时间序列样本转换为连续路径。但是,我们向i)提出建议,使用编码器解码器体系结构生成另一个潜在的连续路径,该架构对应于NCDE的插值过程,即我们的基于神经网络的插值与现有的显式插值相对于现有的显式插值以及II)解码器的外推超出了原始数据的时域的外推。因此,我们的NCDE设计可以同时使用插值和外推信息进行下游机器学习任务。在我们使用5个现实世界数据集和12个基线的实验中,我们的外推和基于插值的NCDES超过了非平凡的边缘的现有基线。
translated by 谷歌翻译
交通预测是机器学习领域最受欢迎的时空任务之一。该领域的一种普遍方法是将图形卷积网络和经常性神经网络组合以进行时空处理。竞争激烈,提出了许多新的方法。在本文中,我们介绍了时空图神经控制微分方程(STG-NCDE)的方法。神经控制微分方程(NCDE)是用于处理顺序数据的突破性概念。我们扩展了概念和设计两个NCDES:一个用于时间处理,另一个用于空间处理。之后,我们将它们结合成一个框架。我们用6个基准数据集和20个基线进行实验。STG-NCDE在所有情况下显示最佳准确性,优于非琐碎的边缘的所有20个基线。
translated by 谷歌翻译
有关GCNS的非线性嵌入传播是否适合于基于GCN的推荐系统存在激烈的辩论。最近发现线性嵌入传播显示比非线性嵌入传播更好的精度。由于这种现象特别是在推荐系统中发现,因此需要仔细分析线性和非线性问题。因此,在这项工作中,我们重新审视I的问题)线性或非线性传播中的哪一个更好,II)用户/项目的哪些因素决定了嵌入传播的线性/非线性。我们提出了一种新型的线性和非线性协同滤波方法的混合方法(HMLet,发音为Hamlet)。在我们的设计中,在处理每个用户或项目节点时,存在线性和非线性传播步骤,并且我们的门控模块选择其中一个,这导致了基于线性和非线性GCN的共同协作滤波的混合模型(CF)。该建议的模型在三个公共基准数据集中产生最佳准确性。此外,我们根据我们的门控模块的选择,将用户/项目分类为以下三个类:全非线性(FNL),部分非线性(PNL)和全线性(FL)。我们发现,节点的中心性与其班级成员之间存在强烈的相关性,即重要用户/项目节点在传播步骤期间对非线性的更多偏好。为了我们的知识,我们是设计混合方法的第一个,并报告节点的图形中心和线性/非线性之间的相关性。所有HMLet代码和数据集可用于:https://github.com/qbxlvnf11/hmlet。
translated by 谷歌翻译