视觉变压器(VIT)的最新进展在视觉识别任务中取得了出色的表现。卷积神经网络(CNNS)利用空间电感偏见来学习视觉表示,但是这些网络在空间上是局部的。 VIT可以通过其自我注意力机制学习全球表示形式,但它们通常是重量重量,不适合移动设备。在本文中,我们提出了交叉功能关注(XFA),以降低变压器的计算成本,并结合有效的移动CNN,形成一种新型有效的轻质CNN-CNN-VIT混合模型Xformer,可以用作通用的骨干链。学习全球和本地代表。实验结果表明,Xformer在不同的任务和数据集上的表现优于大量CNN和基于VIT的模型。在ImagEnet1k数据集上,XFormer以550万参数的优先级达到78.5%的TOP-1精度,比EdgitionNet-B0(基于CNN)(基于CNN)和DEIT(基于VIT)(基于VIT)的参数高2.2%和6.3%。当转移到对象检测和语义分割任务时,我们的模型也表现良好。在MS Coco数据集上,Xformer在Yolov3框架中仅超过10.5 AP(22.7-> 33.2 AP),只有630万参数和3.8克Flops。在CityScapes数据集上,只有一个简单的全MLP解码器,Xformer可实现78.5的MIOU,而FPS为15.3,超过了最先进的轻量级分割网络。
translated by 谷歌翻译
磁共振成像(MRI)是一种重要的非侵入性临床工具,可以产生高分辨率和可重复的图像。然而,高质量的MR图像需要长时间的扫描时间,这导致患者的疲惫和不适,由于患者的自愿运动和非自愿的生理运动,诱导更多人工制品。为了加速扫描过程,通过K空间欠采样和基于深度学习的重建的方法已经推广。这项工作引进了SwinMR,这是一种基于新型的Swin变压器的快速MRI重建方法。整个网络由输入模块(IM)组成,特征提取模块(FEM)和输出模块(OM)。 IM和OM是2D卷积层,并且FEM由级联的残留的Swin变压器块(RSTBS)和2D卷积层组成。 RSTB由一系列SWIN变压器层(STL)组成。 STL的Shifted Windows多头自我关注(W-MSA / SW-MSA)在移位的窗口中执行,而不是整个图像空间中原始变压器的多头自我关注(MSA)。通过使用灵敏度图提出了一种新的多通道损耗,这被证明是为了保留更多纹理和细节。我们在Calgary-Campinas公共大脑MR DataSet中进行了一系列比较研究和消融研究,并在多模态脑肿瘤细分挑战2017年数据集中进行了下游分段实验。结果表明,与其他基准方法相比,我们的SwinMR实现了高质量的重建,并且它在噪音中断和不同的数据集中显示了不同的遮光罩掩模的稳健性。该代码在https://github.com/ayanglab/swinmr公开使用。
translated by 谷歌翻译
严重的急性呼吸综合征冠状病毒2(SARS-COV-2)导致持续的大流行感染了21900万人的10/19/21,死亡率为3.6%。自然选择可以产生有利的突变,具有改善的健身优势;然而,所识别的冠状病毒可能是冰山的尖端,并且可能会随着时间的推移出现潜在的致命变体(VOC)。理解可能导致功能或免疫逃逸的新出现VOC和预测突变的模式是迫切需要的。在这里,我们开发了Phylotransformer,一种基于变压器的辨别模型,其与多头自我关注机制接合以模拟可能导致病毒生殖优势的基因突变。为了识别每个输入序列的元件之间的复杂依赖性,Phylotransformer利用高级建模技术,包括从Performer的正交随机特征方法(Hibl +)以及来自双向编码器表示的屏蔽语言模型(MLM)的新颖快速关注变压器(伯特)。从全球倡议检索的1,765,297次遗传序列培训,从全球范围内检测到所有流感数据(GISAID)数据库。首先,我们使用广泛的基线模型比较了新型突变和新颖组合的预测准确性;我们发现,这种具有统计显着性的每个基线方法都优势了。其次,我们检查了受体结合基序(RBM)的每个核苷酸中的突变预测,我们发现我们的预测是精确和准确的。第三,我们预测了N-糖基化位点的修饰,以鉴定与在病毒进化期间可能有利的改变的糖基化相关的突变。我们预计Phylotransformer可以引导积极的疫苗设计,以有效靶向未来SARS-COV-2变体。
translated by 谷歌翻译
Latent factor model estimation typically relies on either using domain knowledge to manually pick several observed covariates as factor proxies, or purely conducting multivariate analysis such as principal component analysis. However, the former approach may suffer from the bias while the latter can not incorporate additional information. We propose to bridge these two approaches while allowing the number of factor proxies to diverge, and hence make the latent factor model estimation robust, flexible, and statistically more accurate. As a bonus, the number of factors is also allowed to grow. At the heart of our method is a penalized reduced rank regression to combine information. To further deal with heavy-tailed data, a computationally attractive penalized robust reduced rank regression method is proposed. We establish faster rates of convergence compared with the benchmark. Extensive simulations and real examples are used to illustrate the advantages.
translated by 谷歌翻译
Faced with the threat of identity leakage during voice data publishing, users are engaged in a privacy-utility dilemma when enjoying convenient voice services. Existing studies employ direct modification or text-based re-synthesis to de-identify users' voices, but resulting in inconsistent audibility in the presence of human participants. In this paper, we propose a voice de-identification system, which uses adversarial examples to balance the privacy and utility of voice services. Instead of typical additive examples inducing perceivable distortions, we design a novel convolutional adversarial example that modulates perturbations into real-world room impulse responses. Benefit from this, our system could preserve user identity from exposure by Automatic Speaker Identification (ASI) while remaining the voice perceptual quality for non-intrusive de-identification. Moreover, our system learns a compact speaker distribution through a conditional variational auto-encoder to sample diverse target embeddings on demand. Combining diverse target generation and input-specific perturbation construction, our system enables any-to-any identify transformation for adaptive de-identification. Experimental results show that our system could achieve 98% and 79% successful de-identification on mainstream ASIs and commercial systems with an objective Mel cepstral distortion of 4.31dB and a subjective mean opinion score of 4.48.
translated by 谷歌翻译
Spectral clustering is an effective methodology for unsupervised learning. Most traditional spectral clustering algorithms involve a separate two-step procedure and apply the transformed new representations for the final clustering results. Recently, much progress has been made to utilize the non-negative feature property in real-world data and to jointly learn the representation and clustering results. However, to our knowledge, no previous work considers a unified model that incorporates the important multi-view information with those properties, which severely limits the performance of existing methods. In this paper, we formulate a novel clustering model, which exploits the non-negative feature property and, more importantly, incorporates the multi-view information into a unified joint learning framework: the unified multi-view orthonormal non-negative graph based clustering framework (Umv-ONGC). Then, we derive an effective three-stage iterative solution for the proposed model and provide analytic solutions for the three sub-problems from the three stages. We also explore, for the first time, the multi-model non-negative graph-based approach to clustering data based on deep features. Extensive experiments on three benchmark data sets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译
深度神经网络(DNN)已在脑病变检测和分割中广泛采用。但是,在2D MRI切片中定位小病变是具有挑战性的,需要在3D上下文聚集的粒度和计算复杂性之间取得平衡。在本文中,我们提出了一种新型的视角变压器,以增强MRI特征的提取,以进行更准确的肿瘤检测。首先,所提出的变压器在3D脑扫描中收获了不同位置之间的远程相关性。其次,变压器将一堆切片功能堆叠为多个2D视图,并增强这些特征的视图,该功能大致以有效的方式实现了3D相关计算。第三,我们将提出的变压器模块部署在变压器主链中,该模块可以有效地检测到脑损伤周围的2D区域。实验结果表明,我们提出的观看式变压器在具有挑战性的大脑MRI数据集上对大脑病变检测表现良好。
translated by 谷歌翻译
由顺序训练和元训练阶段组成的两阶段训练范式已广泛用于当前的几次学习(FSL)研究。这些方法中的许多方法都使用自我监督的学习和对比度学习来实现新的最新结果。但是,在FSL培训范式的两个阶段,对比度学习的潜力仍未得到充分利用。在本文中,我们提出了一个新颖的基于学习的框架,该框架将对比度学习无缝地整合到两个阶段中,以提高少量分类的性能。在预训练阶段,我们提出了特征向量与特征映射和特征映射与特征映射的形式的自我监督对比损失,该图形与特征映射使用全局和本地信息来学习良好的初始表示形式。在元训练阶段,我们提出了一种跨视图的情节训练机制,以对同一情节的两个不同视图进行最近的质心分类,并采用基于它们的距离尺度对比度损失。这两种策略迫使模型克服观点之间的偏见并促进表示形式的可转让性。在三个基准数据集上进行的广泛实验表明,我们的方法可以实现竞争成果。
translated by 谷歌翻译
气道分割对于检查,诊断和预后的肺部疾病至关重要,而其手动描述则不当。为了减轻这种耗时且潜在的主观手动程序,研究人员提出了从计算机断层扫描(CT)图像自动分割气道的方法。但是,一些小型气道分支(例如,支气管和终末支气管)显着加剧了通过机器学习模型的自动分割难度。特别是,气道分支中体素值和严重的数据失衡的方差使计算模块容易导致不连续和假阴性预测。注意机制表明了分割复杂结构的能力,而模糊逻辑可以减少特征表示的不确定性。因此,由模糊注意力层给出的深度注意力网络和模糊理论的整合应该是升级的解决方案。本文提出了一种有效的气道分割方法,包括一个新型的模糊注意力神经网络和全面的损失函数,以增强气道分割的空间连续性。深层模糊集由特征图中的一组体素和可学习的高斯成员功能制定。与现有的注意机制不同,所提出的特异性模糊注意力解决了不同渠道中异质特征的问题。此外,提出了一种新的评估指标来评估气道结构的连续性和完整性。该方法的效率已通过在包括精确的09和LIDC数据集在内的开放数据集上进行测试,以及我们的内部Covid-19和纤维化肺病数据集证明了这一建议的效率。
translated by 谷歌翻译
最近,后门攻击已成为对深神经网络(DNN)模型安全性的新兴威胁。迄今为止,大多数现有研究都集中于对未压缩模型的后门攻击。尽管在实际应用中广泛使用的压缩DNN的脆弱性尚未得到利用。在本文中,我们建议研究和发展针对紧凑型DNN模型(RIBAC)的强大和不可感知的后门攻击。通过对重要设计旋钮进行系统分析和探索,我们提出了一个框架,该框架可以有效地学习适当的触发模式,模型参数和修剪口罩。从而同时达到高触发隐形性,高攻击成功率和高模型效率。跨不同数据集的广泛评估,包括针对最先进的防御机制的测试,证明了RIBAC的高鲁棒性,隐身性和模型效率。代码可从https://github.com/huyvnphan/eccv2022-ribac获得
translated by 谷歌翻译