When training early-stage deep neural networks (DNNs), generating intermediate features via convolution or linear layers occupied most of the execution time. Accordingly, extensive research has been done to reduce the computational burden of the convolution or linear layers. In recent mobile-friendly DNNs, however, the relative number of operations involved in processing these layers has significantly reduced. As a result, the proportion of the execution time of other layers, such as batch normalization layers, has increased. Thus, in this work, we conduct a detailed analysis of the batch normalization layer to efficiently reduce the runtime overhead in the batch normalization process. Backed up by the thorough analysis, we present an extremely efficient batch normalization, named LightNorm, and its associated hardware module. In more detail, we fuse three approximation techniques that are i) low bit-precision, ii) range batch normalization, and iii) block floating point. All these approximate techniques are carefully utilized not only to maintain the statistics of intermediate feature maps, but also to minimize the off-chip memory accesses. By using the proposed LightNorm hardware, we can achieve significant area and energy savings during the DNN training without hurting the training accuracy. This makes the proposed hardware a great candidate for the on-device training.
translated by 谷歌翻译
在本文中,我们通过合成自己的攻击数据集来提出基于零数据的重复比特翻转攻击(ZEBRA),精确地破坏了深度神经网络(DNN)。许多先前的对抗性重量攻击的作品不仅需要重量参数,而且需要在搜索易受攻击的比特中进行攻击的训练或测试数据集。我们建议通过利用受害者DNN模型中的批量归一化层统计来综合名为Dizeted目标数据的攻击数据集。配备蒸馏的目标数据,我们的Zebra算法可以在模型中搜索易受攻击的位,而无需访问培训或测试数据集。因此,我们的方法使对抗性重量攻击更致命的DNN的安全性。我们的实验结果表明,与先前的攻击方法相比,平均需要2.0倍(CiFar-10)和1.6倍(想象成)的比特翻转数量少。我们的代码可在https:// github上获得。COM / PDH930105 / ZEBRA。
translated by 谷歌翻译
由于生成对抗网络(GAN)的突破,3D可控制的肖像合成已大大提高。但是,用精确的3D控制操纵现有的面部图像仍然具有挑战性。虽然连接gan倒置和3D感知,但噪声到图像是一种直接的解决方案,但它效率低下,可能导致编辑质量明显下降。为了填补这一空白,我们提出了3D-FM GAN,这是一个专门为3D可控制的面部操作设计的新型有条件GAN框架,并且在端到端学习阶段后不需要任何调整。通过小心地编码输入面图像和3D编辑的基于物理的渲染,我们的图像生成器提供了高质量,具有身份的3D控制面部操纵。为了有效地学习这种新颖的框架,我们制定了两种基本的训练策略和一种新颖的乘法共同调制体系结构,可在天真的方案上显着改善。通过广泛的评估,我们表明我们的方法在各种任务上的表现优于先前的艺术,具有更好的编辑性,更强的身份保存和更高的照片真实性。此外,我们在大型姿势编辑和室外图像上展示了设计更好的概括性。
translated by 谷歌翻译
在过去的几年中,基于自我注意力的变压器模型一直在主导许多计算机视觉任务。它们的出色模型质量在很大程度上取决于标记过多的图像数据集。为了减少对大型标记数据集的依赖,基于重建的掩盖自动编码器正在获得流行,这些自动编码器从未标记的图像中学习了高质量的可转移表示形式。出于同样的目的,最近弱监督的图像预处理方法探索了图像随附的文本字幕的语言监督。在这项工作中,我们提出了对语言辅助代表的预读图像,称为米兰。我们的预处理目标不是预测原始像素或低级别的特征,而是用使用字幕监督获得的大量语义信号来重建图像特征。此外,为了适应我们的重建目标,我们提出了更有效的促使解码器体系结构和语义意识到的掩码采样机制,从而进一步推进了预告片模型的传输性能。实验结果表明,米兰的精度比以前的工作更高。当掩盖的自动编码器在ImagEnet-1K数据集上进行了预估计并以224x224的输入分辨率进行了填充时,米兰在VITB/16上的前1位准确性达到了85.4%,使以前的先前最先前的艺术品达到1%。在下游的语义分割任务中,米兰在ADE20K数据集上使用VIT-B/16骨架达到52.7 MIOU,表现优于先前的蒙版预读结果4分。
translated by 谷歌翻译
联合学习的目的是从多个分散设备(即客户)培训全球模型,而无需交换其私人本地数据。关键挑战是处理非i.i.d。 (独立分布的)数据,这些数据可能引起其本地功能的差异。我们介绍了超球联邦学习(球形)框架,以解决非i.i.d。通过限制学习数据点的学习表示,以在客户共享的单位超孔上。具体而言,所有客户都通过最大程度地减少固定分类器的损失来学习其本地表示,其权重跨度跨越了单位。在联合培训改善了全球模型后,通过最大程度地减少平方平方损失,通过封闭形式的解决方案进一步校准了该分类器。我们表明,可以有效地计算校准解决方案,而无需直接访问本地数据。广泛的实验表明,我们的球形方法能够通过相当大的利润率(在具有挑战性的数据集中达到6%)来提高多个现有联合学习算法的准确性,并具有增强的计算和跨数据集和模型架构的通信效率。
translated by 谷歌翻译
视觉变压器(VIV)最近吸引了相当大的关注,但巨额的计算成本仍然是实际部署的问题。先前的Vit修剪方法倾向于仅仅沿着一个维度修剪模型,这可能遭受过度减少并导致次优模型质量。相比之下,我们倡导多维Vit压缩范例,并建议共同利用注意力头,神经元和序列尺寸的冗余减少。我们首先提出了一种基于统计依赖性的修剪标准,这是可以识别有害组分的不同尺寸的概括。此外,我们将多维压缩作为优化,在三个维度上学习最佳修剪策略,可以在计算预算下最大化压缩模型的准确性。通过我们适应的高斯流程搜索解决了预期的改进问题,解决了问题。实验结果表明,我们的方法有效降低了各种VIT模型的计算成本。例如,我们的方法减少了40 \%FLOPS,没有前1个精度损耗Deit和T2T-VT-VT模型,优于先前的最先进。
translated by 谷歌翻译
雷达通过在不同天气条件下实现远程传感来显示自动驾驶的巨大潜力。但由于雷达噪声,雷达也是一种特别具有挑战性的感应模型。最近的作品通过利用LIDAR标签监督对雷达图像中的自由和占用空间进行了巨大的进展。但是,仍有几个未解决的问题。首先,结果的感测距离受激光雷达的感测范围的限制。其次,由于两个传感器之间的物理感知差异,LIDAR将结果的性能退化。例如,LIDAR可见的一些物体对雷达是看不见的,并且由于雷达的穿透能力,在雷达图像中可以在雷达扫描中可见一些物体。这些感测的差异分别导致假阳性和穿透能力变性。在本文中,我们提出了培训数据预处理和极地滑动窗口推断,以解决问题。数据预处理旨在减少LIDAR扫描中雷达隐形测量引起的效果。极性滑动窗推断旨在通过将近距离训练的网络应用于远程区域来解决有限的感测范围问题。我们建议使用极性表示来降低远程和近距离数据之间的形状不一致。我们发现将近距离训练的网络扩展到极地空间中的远程区域推理,而不是在笛卡尔空间中的4.2倍。此外,极性滑动窗推理可以通过改变推理区域的观点来保留雷达穿透能力,这使得一些遮挡的测量似乎对掠夺网络不被封闭。
translated by 谷歌翻译
神经网络的结构设计对于深度学习的成功至关重要。尽管大多数先前在进化学习方面的工作旨在直接搜索网络的结构,但在另一个有希望的轨道频道修剪中,几乎没有尝试过,最近在设计有效的深度学习模型方面取得了重大进展。实际上,先前的修剪方法采用人造修剪功能来评估渠道对渠道修剪的重要性,这需要域知识,并且可以是最佳的。为此,我们开创了使用遗传编程(GP)自动发现强度修剪指标的。具体而言,我们制作了一个新颖的设计空间来表达高质量和可转移的修剪功能,从而确保了端到端的演化过程,在该过程中,进化功能不需要手动修改以使其在演变后的传递性。与先前的方法不同,我们的方法可以提供紧凑的修剪网络,以提供有效的推理和新颖的封闭形式的修剪指标,这些指标在数学上可以解释,因此可以推广到不同的修剪任务。尽管演变是在小型数据集上进行的,但我们的功能在应用于更具挑战性的数据集时显示出令人鼓舞的结果,与演化过程中使用的功能不同。例如,在ILSVRC-2012上,进化的函数可获得最新的修剪结果。
translated by 谷歌翻译
通过增强模型,输入示例,培训集和优化目标,已经提出了各种方法进行分发(OOD)检测。偏离现有工作,我们有一个简单的假设,即标准的离心模型可能已经包含有关训练集分布的足够信息,这可以利用可靠的ood检测。我们对验证这一假设的实证研究,该假设测量了模型激活的模型和分布(ID)迷你批次,发现OOD Mini-Batches的激活手段一直偏离培训数据的培训数据。此外,培训数据的激活装置可以从批量归一化层作为“自由午餐”中有效地计算或从批量归一化层次上检索。基于该观察,我们提出了一种名为神经平均差异(NMD)的新型度量,其比较了输入示例和训练数据的神经手段。利用NMD的简单性,我们提出了一种有效的OOD探测器,通过标准转发通道来计算神经手段,然后是轻量级分类器。广泛的实验表明,在检测精度和计算成本方面,NMD跨越多个数据集和模型架构的最先进的操作。
translated by 谷歌翻译
Deep neural networks are state of the art methods for many learning tasks due to their ability to extract increasingly better features at each network layer. However, the improved performance of additional layers in a deep network comes at the cost of added latency and energy usage in feedforward inference. As networks continue to get deeper and larger, these costs become more prohibitive for real-time and energy-sensitive applications.To address this issue, we present BranchyNet, a novel deep network architecture that is augmented with additional side branch classifiers. The architecture allows prediction results for a large portion of test samples to exit the network early via these branches when samples can already be inferred with high confidence. BranchyNet exploits the observation that features learned at an early layer of a network may often be sufficient for the classification of many data points. For more difficult samples, which are expected less frequently, BranchyNet will use further or all network layers to provide the best likelihood of correct prediction. We study the BranchyNet architecture using several well-known networks (LeNet, AlexNet, ResNet) and datasets (MNIST, CIFAR10) and show that it can both improve accuracy and significantly reduce the inference time of the network.
translated by 谷歌翻译