我们展示了深度学习模型,特别是像自然语言的变压器那样的架构,可以在随机生成的数据集上培训,以预测代谢网络的定性和定量特征非常高的准确性。使用标准数学技术,我们创建了可以用于训练我们的模型的大型随机网络的大集(40 00万个元素)。这些训练有素的模型可以在超过99%的情况下预测随机图的网络均衡。它们还可以概括与不同结构的图表,而不是在训练时遇到的图表。最后,他们可以预测一小组已知的生物网络的均衡。我们的方法在实验数据中非常经济,并且仅使用小而浅的深度学习模型,远离机器翻译中常用的大型架构。这种结果为更大利用深入学习模型的方法铺平了与定量系统药理学,系统生物学和合成生物学等重点领域相关的问题。
translated by 谷歌翻译
This paper proposes a self-supervised approach to learn universal facial representations from videos, that can transfer across a variety of facial analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our proposed framework, named MARLIN, is a facial video masked autoencoder, that learns highly robust and generic facial embeddings from abundantly available non-annotated web crawled facial videos. As a challenging auxiliary task, MARLIN reconstructs the spatio-temporal details of the face from the densely masked facial regions which mainly include eyes, nose, mouth, lips, and skin to capture local and global aspects that in turn help in encoding generic and transferable features. Through a variety of experiments on diverse downstream tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as feature extractor, that performs consistently well across a variety of downstream tasks including FAR (1.13% gain over supervised benchmark), FER (2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low data regime. Our codes and pre-trained models will be made public.
translated by 谷歌翻译
对象之间的良好距离和相似性度量的选择对于许多机器学习方法很重要。因此,近年来已经开发了许多度量学习算法,主要用于欧几里得数据,以提高分类或聚类方法的性能。但是,由于难以在归因图之间建立可计算,高效和可区分的距离,尽管社区的浓厚兴趣,但很少开发适合图形的度量学习算法。在本文中,我们通过提出一个新的简单图表学习 - SGML-模型,该模型几乎没有基于简单的图形卷积神经网络-SGCN-和最佳传输理论元素。该模型使我们能够与标记(属性)图的数据库建立适当的距离,以提高简单分类算法(例如$ k $ -nn)的性能。可以快速训练这个距离,同时保持良好的表现,如本文中提出的实验研究所示。
translated by 谷歌翻译
音频是人类交流最常用的方式之一,但与此同时,它很容易被欺骗人们滥用。随着AI的革命,几乎每个人都可以访问相关技术,从而使罪犯犯罪和伪造变得简单。在这项工作中,我们引入了一种深度学习方法,以开发一种分类器,该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训,以获取分类器,该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集;所有英语数据集和混合数据集(阿拉伯语和英语)。这些数据集已通过GitHub提供,可在https://github.com/sass7/dataset上使用研究社区。为了进行比较,还通过人类检查对音频进行了分类,主题是母语人士。随之而来的结果很有趣,并且表现出强大的精度。
translated by 谷歌翻译
由于MRI体积的强度在各机构之间是不一致的,因此必须将多模式MRI的通用特征提取到精确分段脑肿瘤。在这个概念中,我们提出了一个体积视觉变压器,遵循两种窗口策略,以提取精美特征和局部分配平滑度(LDS)在受虚拟对手训练(VAT)启发的模型训练过程中提取精美的特征和局部分配平滑度(LDS),以使模型可靠。我们在FETS Challenge 2022数据集上培训和评估了网络体系结构。我们在在线验证数据集上的性能如下:骰子相似性得分为81.71%,91.38%和85.40%; Hausdorff距离(95%)的14.81毫米,3.93毫米,11.18毫米,分别用于增强肿瘤,整个肿瘤和肿瘤核。总体而言,实验结果通过在每个肿瘤子区域的分割准确性中得出更好的性能来验证我们的方法的有效性。我们的代码实施公开可用:https://github.com/himashi92/vizviva_fets_2022
translated by 谷歌翻译
联邦学习(FL)提供了有希望的分布式学习范式,因为它试图通过不共享其私人培训数据来保护用户隐私。但是,最近的研究表明,FL容易受到模型反转攻击的影响,该攻击可以通过窃听共享梯度来重建用户的私人数据。现有的防御解决方案无法在更强烈的攻击中生存,并且在隐私和绩效之间表现不佳。在本文中,我们提出了一种直接而有效的防御策略,基于与隐藏数据相混淆敏感数据的梯度。具体而言,我们在迷你批次中更改一些样品,以模仿梯度水平的敏感数据。使用梯度投影技术,我们的方法试图在不牺牲FL性能的情况下模糊敏感数据。我们广泛的评估表明,与其他防御能力相比,我们的技术在保留FL性能的同时提供了最高水平的保护。我们的源代码位于存储库中。
translated by 谷歌翻译
人类活动识别是计算机视觉中的新出现和重要领域,旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络(CNN)的组合来从数据和复发性神经网络(RNN)中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络:一个经常性变压器(RET),这是一个专门的神经网络,用于对数据序列进行预测,以及视觉变压器(VIT),一种用于提取显着的变压器的变压器(VIT)图像的特征,以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。
translated by 谷歌翻译
基于视觉的人类活动识别已成为视频分析领域的重要研究领域之一。在过去的十年中,已经引入了许多先进的深度学习算法,以识别视频流中复杂的人类行为。这些深度学习算法对人类活动识别任务显示出令人印象深刻的表现。但是,这些新引入的方法仅专注于模型性能或这些模型在计算效率和鲁棒性方面的有效性,从而导致其解决挑战性人类活动识别问题的提议中的偏差折衷。为了克服当代深度学习模型对人类活动识别的局限性,本文提出了一个计算高效但通用的空间级联框架,该框架利用了深层歧视性的空间和时间特征,以识别人类活动的识别。为了有效地表示人类行动,我们提出了有效的双重注意卷积神经网络(CNN)体系结构,该结构利用统一的通道空间注意机制来提取视频框架中以人为中心的显着特征。双通道空间注意力层与卷积层一起学会在具有特征图数量的物体的空间接收场中更加专注。然后将提取的判别显着特征转发到堆叠的双向封闭式复发单元(BI-GRU),以使用前进和后传球梯度学习,以实现长期时间建模和对人类行为的识别。进行了广泛的实验,其中获得的结果表明,与大多数当代动作识别方法相比,所提出的框架的执行时间的改善最高167倍。
translated by 谷歌翻译
在过去的几年中,在有限的监督下,在不受限制的环境中解释凝视方向一直引起人们的兴趣。由于数据策展和注释问题,将目光估计方法复制到其他平台(例如不受限制的户外或AR/VR)可能会导致性能大幅下降,因为对于模型培训的准确注释数据的可用性不足。在本文中,我们探讨了一个有趣但具有挑战性的凝视估计方法的问题,其标记数据有限。所提出的方法将知识从标记的子集中提炼出具有视觉特征。包括特定身份的外观,凝视轨迹的一致性和运动特征。给定凝视轨迹,该方法仅利用凝视序列的开始和终点的标签信息。提出的方法的扩展进一步减少了标记框架的需求,仅在生成标签的质量下略有下降的起始框架。我们评估了四个基准数据集(Cave,Tabletgaze,MPII和Gaze360)的建议方法以及Web craw的YouTube视频。我们提出的方法将注释工作降低到低至2.67%,对性能的影响很小。表明我们的模型的潜力实现了凝视估计的“野外”设置。
translated by 谷歌翻译
社交网络的快速发展以及互联网可用性的便利性加剧了虚假新闻和社交媒体网站上的谣言的泛滥。在共同19的流行病中,这种误导性信息通过使人们的身心生命处于危险之中,从而加剧了这种情况。为了限制这种不准确性的传播,从在线平台上确定虚假新闻可能是第一步。在这项研究中,作者通过实施了五个基于变压器的模型,例如Bert,Bert没有LSTM,Albert,Roberta和Bert&Albert的混合体,以检测Internet的Covid 19欺诈新闻。Covid 19假新闻数据集已用于培训和测试模型。在所有这些模型中,Roberta模型的性能优于其他模型,通过在真实和虚假类中获得0.98的F1分数。
translated by 谷歌翻译