Multi-head self-attention is a key component of the Transformer, a state-of-the-art architecture for neural machine translation. In this work we evaluate the contribution made by individual attention heads in the encoder to the overall performance of the model and analyze the roles played by them. We find that the most important and confident heads play consistent and often linguistically-interpretable roles. When pruning heads using a method based on stochastic gates and a differentiable relaxation of the L 0 penalty, we observe that specialized heads are last to be pruned. Our novel pruning method removes the vast majority of heads without seriously affecting performance. For example, on the English-Russian WMT dataset, pruning 38 out of 48 encoder heads results in a drop of only 0.15 BLEU. 1
translated by 谷歌翻译
太阳能电池制造中的有效缺陷检测对于稳定的绿色能源技术制造至关重要。本文介绍了一种基于深度学习的自动检测模型SEMACNN,用于分类和语义分割电致发光图像,用于太阳能电池质量评估和异常检测。该模型的核心是基于马哈拉氏症距离的一种异常检测算法,该算法可以以半监督的方式对具有少量具有相关缺陷的数字电致发光图像的不平衡数据进行训练。这对于迅速将模型集成到工业格局中特别有价值。该模型已通过植物收集的数据集进行了训练,该数据集由68 748个带有母线网格的异质结太阳能电池的电致发光图像。我们的模型在验证子集中的精度达到92.5%,F1得分为95.8%,召回94.8%,精度为96.9%,由1049个手动注释的图像组成。该模型还在Open ELPV数据集上进行了测试,并证明了稳定的性能,准确性为94.6%,F1得分为91.1%。 SEMACNN模型展示了其性能和计算成本之间的良好平衡,这使其适用于集成到太阳能电池制造的质量控制系统中。
translated by 谷歌翻译
布尔矩阵分解(BMF)旨在找到给定二进制基质作为两个低级二进制矩阵的布尔产物的近似值。二进制数据在许多领域都无处不在,并且通过二进制矩阵代表数据在医学,自然语言处理,生物信息学,计算机图形等方面很常见。不幸的是,BMF在计算方面是硬性的,并且使用启发式算法来计算布尔分解。最近,理论突破是由两个研究小组独立获得的。 Ban等。 (Soda 2019)和Fomin等。 (Trans。2020算法)表明,BMF接受有效的多项式近似方案(EPTAS)。然而,尽管理论上的重要性,但从等级的运行时间的高指数依赖性使这些算法在实践中无法实现。促使我们工作的主要研究问题是BMF的理论进步是否可能导致实用算法。我们工作的主要概念性贡献是以下内容。尽管BMF的EPTA是纯粹的理论进步,但这些算法背后的一般方法可以作为设计更好的启发式方法的基础。我们还使用此策略来为相关的$ \ mathbb {f} _p $ -matrix分解开发新算法。在这里,给定有限的字段GF($ p $)的矩阵$ a $,其中$ p $是素数,而整数$ r $,我们的目标是在与GF的同一字段上找到一个矩阵$ b $( $ p $) - 最多排名$ r $最小化$ a-b $的一些规范。我们对合成和现实世界数据的实证研究证明了新算法比以前的作品在BMF和$ \ Mathbb {f} _p $ -matrix分解方面的优势。
translated by 谷歌翻译
我们提出了深层图像编码(DLIC),这是一种完整的分辨率学习的无损图像压缩算法。我们的算法基于与熵编码器结合的神经网络。神经网络对源图像的每个像素进行密度估计。然后,密度估计用于编码目标像素,以压缩速率击败FLIF。已经尝试了类似的方法。但是,长期运行时间使它们在现实世界应用中不可行。我们引入了基于GPU的实现,允许在不到一秒钟内编码和解码8位图像。由于DLIC使用神经网络来估计熵编码器使用的概率,因此可以在域特定图像数据上训练DLIC。我们通过使用磁铁共振成像(MRI)图像适应和训练DLIC来证明这种能力。
translated by 谷歌翻译
由液体闪光灯(LS)靶标组成的大型探测器被一系列照片 - 型型管(PMT)包围,广泛用于现代中微子实验中:Borexino,Kamland,Daya Bay,Double Chooz,Reno,Ren​​o,Ren​​o和即将到来的Juno及其卫星朱诺检测器陶。这样的设备能够测量中微子能量,这可以从PMT通道上的光及其空间和时间分布中得出。但是,在大规模探测器中实现精细的能源分辨率是具有挑战性的。在这项工作中,我们介绍了该类型最先进的检测器Juno的能源重建方法的机器学习方法。我们专注于0-10 MEV的能量范围的正电子事件,该事件与juno $ - $中微子中的主要信号相对应,该信号源自核反应堆核心,并通过逆β-蛋白通道检测到。我们考虑使用PMTS收集的信息计算的综合特征,并在综合特征上进行了培训的深层神经网络。我们描述了我们功能工程程序的详细信息,并表明机器学习模型可以使用工程功能的子集提供能源分辨率$ \ sigma = 3 \%$。用于模型培训和测试的数据集由Monte Carlo方法与官方Juno软件生成。还提出了用于评估实际数据重建算法性能的校准源。
translated by 谷歌翻译
灵活的目标指导行为是人类生活的一个基本方面。基于自由能最小化原理,主动推断理论从计算神经科学的角度正式产生了这种行为。基于该理论,我们介绍了一个输出型,时间预测的,模块化的人工神经网络体系结构,该建筑处理感觉运动信息,渗透到世界上与行为相关的方面,并引起高度灵活的,目标定向的行为。我们表明,我们的建筑经过端对端训练,以最大程度地减少自由能的近似值,它会发展出可以将其解释为负担能力地图的潜在状态。也就是说,新兴的潜在状态表明哪种行动导致哪些效果取决于局部环境。结合主动推断,我们表明可以调用灵活的目标指导行为,并结合新兴的负担能力图。结果,我们的模拟代理会在连续的空间中灵活地转向,避免与障碍物发生碰撞,并且更喜欢高确定性地导致目标的途径。此外,我们表明,学识渊博的代理非常适合跨环境的零拍概括:在训练少数固定环境中的代理商在具有障碍和其他影响其行为的固定环境中,它在程序生成的环境中表现出色,其中包含不同量的环境不同位置的各种尺寸的障碍和地形。
translated by 谷歌翻译
$ k $ -means和$ k $ -median集群是强大的无监督机器学习技术。但是,由于对所有功能的复杂依赖性,解释生成的群集分配是挑战性的。 Moshkovitz,Dasgupta,Rashtchian和Frost [ICML 2020]提出了一个优雅的可解释$ K $ -means和$ K $ -Median聚类型号。在此模型中,具有$ k $叶子的决策树提供了集群中的数据的直接表征。我们研究了关于可解释的聚类的两个自然算法问题。 (1)对于给定的群集,如何通过使用$ k $叶的决策树找到“最佳解释”? (2)对于一套给定的点,如何找到一个以美元的决策树,最小化$ k $ -means / median目标的可解释的聚类?要解决第一个问题,我们介绍了一个新的可解释群集模型。我们的型号受到强大统计数据的异常值概念的启发,是以下情况。我们正在寻求少数积分(异常值),其删除使现有的聚类良好可解释。为了解决第二个问题,我们开始研究Moshkovitz等人的模型。从多元复杂性的角度来看。我们严格的算法分析揭示了参数的影响,如数据的输入大小,尺寸,异常值的数量,簇数,近似比,呈现可解释的聚类的计算复杂度。
translated by 谷歌翻译
当可用时,我们继续研究宠物或SPECT等抛光断层凝视的不确定性量化问题。为了解决上述问题,我们将最近提出的非参数后学习技术适应排放断层扫描中泊松型数据的背景。使用这种方法,我们推出了采样算法,这些算法是微不一性的,可扩展的,非常容易实现。此外,我们证明了在小噪声极限中分布产生的样品的条件一致性和紧密性(即,当采集时间趋于无穷大时)并导出必须使用MRI图像的新几何和必要条件。这种情况自然出现在错过的广义泊松模型的可识别性问题的背景下。我们还将我们的方法与贝叶斯马尔可夫链蒙特卡罗采样进行了鲜明对比,基于一个数据增强方案,这在宠物或SPECT的期望最大化算法中非常流行。我们理论上展示了这些数据增强显着增加了马尔可夫链的混合时间。鉴于此,我们的算法似乎在设计复杂性,可扩展性,数值负荷和不确定性评估之间提供合理的权衡。
translated by 谷歌翻译
灵感来自动物视觉系统中的两个基本机制,我们介绍了一种特征变换技术,在深神经网络训练中强加不变性。生成的算法需要较少的参数调整,用初始学习速率1.0提供良好的列车,并且容易地推广到不同的任务。我们使用数据中的本地统计数据强制不变性,以使类似的样本对齐不同的标度。为了加速融合,我们强制使用从批处理中提取的全局统计数据来执行GL(n)-invariance属性,使得梯度下降溶液应保持不变的基础变化。分析分析表明我们所提出的修改需要底层卷积层的计算的5%。在卷积网络和变压器网络上测试,我们提出的技术需要较少的迭代训练,超过所有基线,通过大幅度,无缝工作,对小型和大批量训练,并适用于不同的计算机视觉和语言任务。
translated by 谷歌翻译