现代机器学习模型使用大型数据集使用越来越多的参数(GPT-3参数1750亿参数),以获得更好的性能。更大的是常态。光学计算已被恢复为通过执行线性操作的同时降低电力的光学加速器的大规模计算的潜在解决方案。但是,要用光实现有效的计算,在光学上而不是电子上创建和控制非线性仍然是一个挑战。这项研究探讨了一种储层计算方法(RC)方法,通过该方法,在绝缘体上的Linbo3中的14毫米长的几种模式波导被用作复杂的非线性光学处理器。数据集在飞秒脉冲的频谱上进行数字编码,然后在波导中启动。输出频谱非线性取决于输入。我们通过实验表明,与非转换数据相比,使用波导的输出谱提高了几个数据库的分类精度,使用来自波导的输出频谱具有784个参数的简单数字线性分类器,约为10 $ \%$。相比之下,必须具有40000个参数的深数字神经网络(NN)才能达到相同的准确性。将参数的数量减少$ \ sim $ 50,这说明了紧凑的光RC方法可以与深数字NN一起执行。
translated by 谷歌翻译
Large-scale vision-language models such as CLIP have shown impressive performance on zero-shot image classification and image-to-text retrieval. However, such zero-shot performance of CLIP-based models does not realize in tasks that require a finer-grained correspondence between vision and language, such as Visual Question Answering (VQA). We investigate why this is the case, and report an interesting phenomenon of CLIP, which we call the Concept Association Bias (CAB), as a potential cause of the difficulty of applying CLIP to VQA and similar tasks. CAB is especially apparent when two concepts are present in the given image while a text prompt only contains a single concept. In such a case, we find that CLIP tends to treat input as a bag of concepts and attempts to fill in the other missing concept crossmodally, leading to an unexpected zero-shot prediction. For example, when asked for the color of a lemon in an image, CLIP predicts ``purple'' if the image contains a lemon and an eggplant. We demonstrate the Concept Association Bias of CLIP by showing that CLIP's zero-shot classification performance greatly suffers when there is a strong concept association between an object (e.g. lemon) and an attribute (e.g. its color). On the other hand, when the association between object and attribute is weak, we do not see this phenomenon. Furthermore, we show that CAB is significantly mitigated when we enable CLIP to learn deeper structure across image and text embeddings by adding an additional Transformer on top of CLIP and fine-tuning it on VQA. We find that across such fine-tuned variants of CLIP, the strength of CAB in a model predicts how well it performs on VQA.
translated by 谷歌翻译
反事实解释体现了许多可解释性技术之一,这些技术受到机器学习社区的关注。它们使模型预测更明智的潜力被认为是无价的。为了增加其在实践中的采用,应在文献中提出反事实解释的一些标准。我们提出了使用约束学习(CE-OCL)优化的反事实解释,这是一种通用而灵活的方法,可满足所有这些标准,并为进一步扩展提供了空间。具体而言,我们讨论如何利用约束学习框架的优化来生成反事实解释,以及该框架的组件如何容易地映射到标准。我们还提出了两种新颖的建模方法来解决数据的近距离和多样性,这是实践反事实解释的两个关键标准。我们在几个数据集上测试CE-OCL,并在案例研究中介绍我们的结果。与当前的最新方法相比,CE-OCL可以提高灵活性,并且在相关工作中提出的几个评估指标方面具有卓越的性能。
translated by 谷歌翻译
最近,深度学习方法已经在许多医学图像分割任务中实现了最先进的表现。其中许多是基于卷积神经网络(CNN)。对于这种方法,编码器是从输入图像中提取全局和局部信息的关键部分。然后将提取的特征传递给解码器以预测分割。相比之下,最近的几部作品显示了使用变压器的卓越性能,可以更好地对远程空间依赖性进行建模并捕获低级细节。但是,对于某些任务无法有效替换基于卷积的编码器的某些任务,变形金刚作为唯一的编码器表现不佳。在本文中,我们提出了一个带有双重编码器的模型,用于3D生物医学图像分割。我们的模型是带有独立变压器编码器的U形CNN。我们融合了卷积编码器和变压器的信息,并将其传递给解码器以获得结果。我们从三个不同的挑战中评估了三个公共数据集上的方法:BTCV,MODA和DECHANLON。与在每个任务上有和没有变压器的最先进模型相比,我们提出的方法在整个方面都获得了更高的骰子分数。
translated by 谷歌翻译
目的;这项研究的目的是通过将机器学习应用于多模式MRI特征,将神经胶质肿瘤分为II,III和IV类别,与体积分析相比。方法;我们回顾性地研究了57例在3T MRI上获取的T2加权,T2加权,Flair图像和ADC MAP的胶质瘤患者。使用ITK-SNAP开源工具的半小局分割,将肿瘤分割为增强和非增强部分,肿瘤坏死,囊肿和水肿。我们测量了总肿瘤量,增强的非肿瘤,水肿,坏死体积以及与总肿瘤量的比率。对培训载体机(SVM)分类器和人工神经网络(ANN)进行了标记的数据,旨在回答感兴趣的问题。通过ROC分析计算预测的特异性,灵敏度和AUC。使用Kruskall Wallis评估了组之间连续度量的差异,并进行了事后DUNN校正以进行多次比较。结果;当我们比较组之间的体积比时,IV级和II-III级神经胶质肿瘤之间的统计学显着差异。 IV级神经胶质肿瘤的水肿和肿瘤坏死比率高于II和III级。体积比分析无法成功区分II和III级肿瘤。但是,SVM和ANN以高达98%和96%的精度正确分类了每个组。结论;在临床环境中,可以将机器学习方法应用于MRI特征,以无创,更容易地对脑肿瘤进行分类。
translated by 谷歌翻译
胸部X射线(CXR)成像的作用,由于更具成本效益,可广泛可用,并且与CT相比具有更快的获取时间,在Covid-19-19-19大流行期间已经演变。为了提高CXR成像的诊断性能,越来越多的研究研究了监督深度学习方法是否可以提供额外的支持。但是,有监督的方法依靠大量标记的放射学图像,这是一项耗时且复杂的程序,需要专家临床医生的输入。由于COVID-19患者数据的相对稀缺性和昂贵的标签过程,因此,自我监督的学习方法已获得动力,并已提出与完全监督的学习方法相当的结果。在这项工作中,我们研究了从CXR图像诊断Covid-19疾病的背景下,自我监督学习的有效性。我们提出了一个多功能视觉变压器(VIT)引导体系结构,在该体系结构中我们部署了交叉注意机制,以从原始CXR图像和相应增强的局部CXR图像中学习信息。我们通过利用基于局部阶段的增强的CXR图像来进一步改善基线自学学习模型的性能。通过使用10 \%标记的CXR扫描,该模型可实现91.10 \%和96.21 \%的总体精度,总计为35,483 CXR的健康(8,851)(8,851),常规肺炎(6,045)和COVID-19(18,159)(18,159)(18,159)(18,159)(18,159)(18,159)扫描对最新技术的显着改善。代码可用https://github.com/endiqq/multi-feature-vit
translated by 谷歌翻译
最近在认证的人工智能(AI)工具上使用的医疗保健工具的峰值启动了有关采用该技术的辩论。此类辩论的一个线索涉及可解释的AI及其希望使AI设备更透明和值得信赖的承诺。在医学AI领域中活跃的一些声音对可解释的AI技术的可靠性表示关注,并质疑它们在准则和标准中的使用和包容性。重新批评此类批评,本文对可解释的AI的实用性提供了平衡,全面的观点,重点是AI的临床应用的特异性,并将其置于医疗干预措施中。我们认为,尽管有有效的关注,但我们认为,可解释的AI研究计划仍然是人机相互作用的核心,最终是我们反对失去控制的主要工具,仅通过严格的临床验证,这种危险无法阻止。
translated by 谷歌翻译
由于超声图像中的成像伪影和低信噪比,自动骨表面分割网络通常会产生碎片的预测,从而阻碍超声引导的计算机辅助手术程序的成功。由于缺乏执行连通性的监督,现有的像素预测通常无法捕获骨组织的准确拓扑。在这项工作中,我们提出了一个定向引导的图形卷积网络,以改善连通性,同时分割骨表面。我们还提出了有关骨表面方向的额外监督,以进一步施加连通性。我们在1042 Vivo US扫描股骨,膝盖,脊柱和远端半径上验证了我们的方法。我们的方法将最新方法的连通性指标提高了5.01%。
translated by 谷歌翻译
从语音音频中删除背景噪音一直是大量研究和努力的主题,尤其是由于虚拟沟通和业余声音录制的兴起,近年来。然而,背景噪声并不是唯一可以防止可理解性的不愉快干扰:混响,剪裁,编解码器工件,有问题的均衡,有限的带宽或不一致的响度同样令人不安且无处不在。在这项工作中,我们建议将言语增强的任务视为一项整体努力,并提出了一种普遍的语音增强系统,同时解决了55种不同的扭曲。我们的方法由一种使用基于得分的扩散的生成模型以及一个多分辨率调节网络,该网络通过混合密度网络进行增强。我们表明,这种方法在专家听众执行的主观测试中大大优于艺术状态。我们还表明,尽管没有考虑任何特定的快速采样策略,但它仅通过4-8个扩散步骤就可以实现竞争性的目标得分。我们希望我们的方法论和技术贡献都鼓励研究人员和实践者采用普遍的语音增强方法,可能将其作为一项生成任务。
translated by 谷歌翻译
多发性硬化症(MS)是一种慢性神经炎症性疾病,多模态MRIS通常用于监测MS病变。许多自动MS病变细分模型已经开发并达到了人类水平的性能。但是,大多数已建立的方法都假定在训练过程中使用的MRI模式在测试过程中也可以使用,这在临床实践中不能保证。以前,已将称为模式辍学的训练策略应用于MS病变细分,以实现最先进的性能,而缺失了模态。在本文中,我们提出了一种称为ModDrop ++的新方法,以训练统一的网络适应于任意数量的输入MRI序列。 ModDrop ++以两种关键方式升级ModDrop的主要思想。首先,我们设计一个插件动态头,并采用过滤器缩放策略来提高网络的表现力。其次,我们设计了一种共同训练策略,以利用完全模态和缺失方式之间的主体内关系。具体而言,主体内共同训练策略旨在指导动态头部在同一主题的全模式数据和缺失模式数据之间生成相似的特征表示。我们使用两个公共MS数据集来显示ModDrop ++的优势。源代码和训练有素的模型可在https://github.com/han-liu/moddropplusplus上获得。
translated by 谷歌翻译