Harmonic functions are abundant in nature, appearing in limiting cases of Maxwell's, Navier-Stokes equations, the heat and the wave equation. Consequently, there are many applications of harmonic functions, spanning applications from industrial process optimisation to robotic path planning and the calculation of first exit times of random walks. Despite their ubiquity and relevance, there have been few attempts to develop effective means of representing harmonic functions in the context of machine learning architectures, either in machine learning on classical computers, or in the nascent field of quantum machine learning. Architectures which impose or encourage an inductive bias towards harmonic functions would facilitate data-driven modelling and the solution of inverse problems in a range of applications. For classical neural networks, it has already been established how leveraging inductive biases can in general lead to improved performance of learning algorithms. The introduction of such inductive biases within a quantum machine learning setting is instead still in its nascent stages. In this work, we derive exactly-harmonic (conventional- and quantum-) neural networks in two dimensions for simply-connected domains by leveraging the characteristics of holomorphic complex functions. We then demonstrate how these can be approximately extended to multiply-connected two-dimensional domains using techniques inspired by domain decomposition in physics-informed neural networks. We further provide architectures and training protocols to effectively impose approximately harmonic constraints in three dimensions and higher, and as a corollary we report divergence-free network architectures in arbitrary dimensions. Our approaches are demonstrated with applications to heat transfer, electrostatics and robot navigation, with comparisons to physics-informed neural networks included.
translated by 谷歌翻译
要了解深层relu网络的动态,我们通过将其分解为级级$ w(t)$ and Angle $ \ phi(t):= \ pi- \ theta,研究了梯度流量$ W(t)$的动态系统(t)$组件。特别是,对于具有球形对称数据分布和平方损耗函数的多层单晶元神经元,我们为大小和角度成分提供上限和下限,以描述梯度流动的动力学。使用获得的边界,我们得出结论,小规模初始化会导致深单重质神经元的缓慢收敛速度。最后,通过利用梯度流和梯度下降的关系,我们将结果扩展到梯度下降方法。所有理论结果均通过实验验证。
translated by 谷歌翻译
图像分类模型通常会学会根据输入功能与培训数据中输出类之间的无关共发生进行预测类。我们称不需要的相关性为“数据偏见”,视觉特征导致数据偏见为“偏见因素”。在没有人类干预的情况下自动识别和减轻偏见是一个挑战。因此,我们进行了一项设计研究,以找到人类的循环解决方案。首先,我们确定了用三个专家捕获图像分类模型的偏差缓解过程的用户任务。然后,为了支持任务,我们开发了一个名为DASH的视觉分析系统,该系统允许用户在视觉上识别偏见因素,使用最先进的图像到图像到图像转换模型迭代生成合成图像,并监督改善分类精度的模型培训过程。我们对十名参与者的定量评估和定性研究证明了破折号的实用性,并为将来的工作提供了教训。
translated by 谷歌翻译
我们提出了一种新型算法,用于单眼深度估计,将度量深度图分解为归一化的深度图和尺度特征。所提出的网络由共享编码器和三个解码器组成,称为G-NET,N-NET和M-NET,它们分别估算了梯度图,归一化的深度图和度量深度图。M-NET学习使用G-NET和N-NET提取的相对深度特征更准确地估算度量深度。所提出的算法具有一个优点,即它可以使用无度量深度标签的数据集来提高度量深度估计的性能。各种数据集的实验结果表明,所提出的算法不仅为最先进的算法提供竞争性能,而且即使只有少量的度量深度数据可用于培训,也会产生可接受的结果。
translated by 谷歌翻译
视觉预训练的最新进展表明,在不同的视觉任务中表现出惊人的表现,阐明了对人工智能研究中对视觉和文本概念的全面理解的长期问题。但是,在医学领域的视觉预训练的应用方面取得了有限数量和多样性阻碍了对联合视觉语言概念的成功学习。在这项研究中,我们介绍了Max-VL,这是一种针对医疗领域中有效视觉预训练的模型。我们在实验上证明,预先训练的MAX-VL模型在各种视觉任务中都优于当前最新视觉语言模型。我们还提出了用于诊断新出现疾病和人为错误检测的临床实用性,并显示了该模型在不同领域数据中的广泛适用性。
translated by 谷歌翻译
低剂量和高剂量CT图像的采集条件通常是不同的,因此CT数字的变化经常发生。因此,学习目标图像分布的无监督深度学习方法通常会引入CT数字扭曲,并在诊断性能中造成不利影响。为了解决这个问题,我们在这里提出了一种新颖的无监督学习方法,用于使用贴剂深度度量学习进行低水平CT重建。关键的想法是通过拉动具有相同解剖结构的图像贴片的正面对来学习嵌入空间,并推动具有相同噪声水平的负对。因此,该网络经过训练以抑制噪声水平,同时即使在图像翻译后仍保留原始的全局CT数字分布。实验结果证实,我们的深度度量学习在产生没有CT数字的高质量DeNocied图像中起着至关重要的作用。
translated by 谷歌翻译
当前的关键字发现系统通常通过大量预定义的关键字进行培训。在开放式摄影设置中识别关键字对于个性化智能设备互动至关重要。为了实现这一目标,我们提出了一个基于MLPMixer的纯粹基于MLP的神经网络,该网络是MLPMIXER - 一种MLP模型体系结构,可有效取代视觉变压器中的注意机制。我们研究了将mlpmixer体系结构适应QBYE开放式录音录一下关键字点斑点任务的不同方法。与最先进的RNN和CNN模型的比较表明,我们的方法在挑战性情况(10DB和6DB环境)上都在公开可用的HEY-SNIPS数据集和具有400个扬声器的更大规模的内部数据集上取得了更好的性能。与基线模型相比,我们提出的模型还具有较少数量的参数和MAC。
translated by 谷歌翻译
理解梯度下降对Relu网络的概括能力的隐性偏见一直是机器学习研究中的重要研究主题。不幸的是,即使对于经过正方形损失训练的单个Relu神经元,最近也表现出不可能以模型参数规范来表征隐式正则化(Vardi&Shamir,2021)。为了缩小理解Relu网络的有趣概括行为的差距,在训练单神经元网络时,我们在这里检查参数空间中的梯度流动动力学。具体来说,我们发现了在支持向量方面的隐性偏见,该偏见在Relu网络良好地概括的原因和如何延伸方面起着关键作用。此外,我们分析了梯度流相对于初始化规范的幅度,并表明学习重量的规范严格通过梯度流量增加。最后,我们证明了单个Relu神经元的全球融合,以$ d = 2 $ case。
translated by 谷歌翻译
与单轴平面成像的2-D超声(US)相比,3-D US成像系统可以沿三个轴平面可视化容积。这允许完整的解剖学观察,这对于妇科(GYN)和产科(OB)应用是有用的。不幸的是,与2-D US相比,3-D US在分辨率中具有固有的限制。例如,在3-D US与3-D机械探针的情况下,例如,图像质量沿着光束方向可比较,但在其他两个轴向图像平面中通常观察到图像质量的显着劣化。为了解决这个问题,我们提出了一种新颖的无监督的深度学习方法来提高3-D US图像质量。特别是,使用{\ EM无与伦比的}高质量的2-D US图像作为参考,我们培训了最近提出的可切换Cyclean架构,以便在3-D中的每个映射平面都可以学习2-D US图像的图像质量。由于可切换架构,我们的网络还可以根据用户偏好提供对图像增强级别的实时控制,这是以用户为中心的扫描仪设置的理想选择。具有临床评估的广泛实验证实,我们的方法提供了显着提高的图像质量,也能成为用户友好的灵活性。
translated by 谷歌翻译
口语理解(SLU)系统提取文本成绩单和语义与意图和插槽相关的语言。 SLU系统通常由(1)自动语音识别(ASR)模块组成,(2)接口来自ASR相关输出的接口模块,以及(3)自然语言理解(NLU)模块。 SLU系统中的接口随附文本转录或更丰富的信息(例如从ASR到NLU)的信息。在本文中,我们研究界面如何影响与口语理解的联合培训。最值得注意的是,我们在公开可用的50小时SLURP数据集中获得了最新结果。我们首先利用通过文本界面连接的大型ASR和NLU模型,然后通过序列损耗函数共同训练这两个模型。对于未利用预位模型的场景,使用更丰富的神经界面通过联合序列损失训练获得了最佳结果。最后,我们显示了利用预期模型随培训数据规模增加的总体减少影响。
translated by 谷歌翻译