紧张的卷积神经网络(TCNN)吸引了他们在减少模型参数或增强概括能力方面的力量方面引起了很多研究的关注。然而,即使体重初始化方法,TCNN的探索也受到阻碍。要具体,一般的初始化方法,例如Xavier或Kaiming初始化,通常无法为TCNN产生适当的权重。同时,尽管针对特定架构(例如张量环网)采用了临时方法,但它们不适用于具有其他张量分解方法(例如CP或Tucker分解)的TCNN。为了解决这个问题,我们提出了一个普遍的权重初始化范式,该范式概括了Xavier和Kaiming方法,并且可以广泛适用于任意TCNN。具体而言,我们首先介绍重现转换,以将TCNN中的向后过程转换为等效卷积过程。然后,基于向前和后退过程中的卷积运算符,我们构建了一个统一的范式,以控制TCNN中特征和梯度的方差。因此,我们可以为各种TCNN得出粉丝和风扇的初始化。我们证明我们的范式可以稳定TCNN的训练,从而导致更快的收敛性和更好的结果。
translated by 谷歌翻译
量子多体系统的状态是在高维的希尔伯特空间中定义的,可以对子系统之间的丰富而复杂的相互作用进行建模。在机器学习中,复杂的多个多线性相关性也可能存在于输入功能中。在本文中,我们提出了一个量子启发的多线性模型,称为残留张量列(RESTT),以捕获单个模型中从低阶到高阶的特征的多次多线性相关性。 RESTT能够在高维空间中建立强大的决策边界,以解决拟合和分类任务。特别是,我们证明了完全连接的层和Volterra系列可以将其视为特殊情况。此外,我们得出了根据平均场分析来稳定RESTT训练的权重初始化规则。我们证明,这样的规则比TT的规则放松得多,这意味着休息可以轻松解决现有TT模型中存在的消失和爆炸梯度问题。数值实验表明,RESTT的表现优于最先进的张量网络,并在MNIST和时尚MNIST数据集上进行基准深度学习模型。此外,RESTT在两个实践示例上的统计方法比其他有限数据的统计方法更好,这些方法具有复杂的功能相互作用。
translated by 谷歌翻译
Neural networks require careful weight initialization to prevent signals from exploding or vanishing. Existing initialization schemes solve this problem in specific cases by assuming that the network has a certain activation function or topology. It is difficult to derive such weight initialization strategies, and modern architectures therefore often use these same initialization schemes even though their assumptions do not hold. This paper introduces AutoInit, a weight initialization algorithm that automatically adapts to different neural network architectures. By analytically tracking the mean and variance of signals as they propagate through the network, AutoInit appropriately scales the weights at each layer to avoid exploding or vanishing signals. Experiments demonstrate that AutoInit improves performance of convolutional, residual, and transformer networks across a range of activation function, dropout, weight decay, learning rate, and normalizer settings, and does so more reliably than data-dependent initialization methods. This flexibility allows AutoInit to initialize models for everything from small tabular tasks to large datasets such as ImageNet. Such generality turns out particularly useful in neural architecture search and in activation function discovery. In these settings, AutoInit initializes each candidate appropriately, making performance evaluations more accurate. AutoInit thus serves as an automatic configuration tool that makes design of new neural network architectures more robust. The AutoInit package provides a wrapper around TensorFlow models and is available at https://github.com/cognizant-ai-labs/autoinit.
translated by 谷歌翻译
我们分析了经过微型批量随机梯度下降(SGD)和重量衰减的深层恢复神经网络。我们研究了SGD噪声的来源,并证明当重量衰减训练时,收敛时唯一的SGD解决方案是零功能。此外,我们在理论和经验上都表明,当使用重量衰减和小批量尺寸的SGD训练神经网络时,预计所得的重量矩阵的排名将很小。我们的分析依赖于最小的假设集,神经网络可能是任意宽或深的,并且可能包括剩余连接以及批处理标准化层。
translated by 谷歌翻译
虽然最近,已经提出了许多设计来提高卷积神经网络的模型效率(CNNS)在固定资源预算上,对这些设计的理论理解仍然显着缺乏。本文旨在为回答问题提供新框架:压缩CNN中还有剩余的模型冗余吗?我们首先通过张量分解开发CNN和压缩的CNN的一般统计制剂,使得跨层的重物可以总结为单个张量。然后,通过严谨的样本复杂性分析,我们揭示了衍生的样本复杂性和天真参数计数之间的重要差异,它用作模型冗余的直接指示器。通过此发现的激励,我们为压缩CNN的压缩CNN介绍了一种新的模型冗余度量,称为$ k / r $比率,进一步允许非线性激活。通过对流行块设计和数据集的消融研究支持这种新措施的有用性。
translated by 谷歌翻译
深度神经网络通常以随机重量初始化,并具有足够选择的初始方差,以确保训练期间稳定的信号传播。但是,选择适当的方差变得具有挑战性,尤其是随着层数的增长。在这项工作中,我们用完全确定性的初始化方案(即零)代替随机权重初始化,该方案基于身份和Hadamard变换来初始用零和一个(最高范围化因子)开始网络的权重。通过理论和实证研究,我们证明了零能够训练网络而不会损害其表现力。在Resnet上应用零在包括Imagenet在内的各种数据集上实现最先进的性能,这表明随机权重可能不需要网络初始化。此外,零具有许多好处,例如训练超深网络(没有批处理规范化),表现出低级别的学习轨迹,从而导致低级和稀疏的解决方案,并提高培训可重复性。
translated by 谷歌翻译
尽管主要使用一阶方法来训练深层学习模型,但尤其是自然梯度方法,仍然是利益,因为它们通过使用曲率信息加速训练的可能性。已经提出了几种具有非对角线预处理矩阵,包括KFAC,洗发剂和K-BFG的方法,并显示有效。基于所谓的张量正常(TN)分布,我们提出并分析了一种全新的近似自然梯度方法,张量正常训练(TNT),如洗发水,只需要了解训练参数的形状。通过近似基于概率的Fisher矩阵,与经验丰富的Fisher矩阵相反,我们的方法使用基于采样的梯度的块明智的协方差作为预处理矩阵。此外,假设基于采样的(张量)梯度遵循TN分布,确保其协方差具有Kronecker可分离结构,这导致到Fisher矩阵的易逼近。因此,TNT的内存需求和迭代计算成本仅略高于一阶方法的计算成本。在我们的实验中,TNT对最先进的一阶方法以及最先进的二阶方法KFAC和洗发剂的可比优化性能表现出卓越的优化性能。此外,TNT证明了其概括的能力以及使用较少的时期的一级方法。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
低秩张量压缩已被提议作为一个有前途的方法,以减少他们的边缘设备部署神经网络的存储和计算需求。张量压缩减少的通过假设网络的权重来表示神经网络权重所需的参数的数目具有一个粗糙的高级结构。此粗结构假设已经被应用到压缩大神经网络如VGG和RESNET。计算机视觉任务然而现代国家的最先进的神经网络(即MobileNet,EfficientNet)已经通过在深度方向上可分离卷积假定粗因式分解结构,使得纯张量分解较少有吸引力的方法。我们建议低张量分解稀疏修剪,以充分利用粗粒和细粒结构的压缩相结合。我们在压缩SOTA架构的权重(MobileNetv3,EfficientNet,视觉变压器),并比较这种方法来疏剪枝,独自张量分解。
translated by 谷歌翻译
在本文中,我们在不同研究领域使用的三种模型之间存在联系:来自正式语言和语言学的加权有限自动机〜(WFA),机器学习中使用的经常性神经网络,以及张量网络,包括一组高处的优化技术量子物理学和数值分析中使用的顺序张量。我们首先介绍WFA与张力列车分解,特定形式的张量网络之间的内在关系。该关系允许我们展示由WFA计算的函数的Hankel矩阵的新型低级结构,并设计利用这种结构的有效光谱学习算法来扩展到非常大的Hankel矩阵。我们将解开基本连接在WFA和第二阶逆转神经网络之间〜(2-RNN):在离散符号的序列的情况下,具有线性激活功能的WFA和2-RNN是表现性的。利用该等效结果与加权自动机的经典频谱学习算法相结合,我们介绍了在连续输入向量序列上定义的线性2-RNN的第一可提供学习算法。本算法依赖于Hankel Tensor的低等级子块,可以从中可以从中恢复线性2-RNN的参数。在综合性和现实世界数据的仿真研究中评估了所提出的学习算法的性能。
translated by 谷歌翻译
最近的作品为张量网络结构搜索(TN-SS)付出了很多努力,旨在选择合适的张量网络(TN)结构,涉及TN级别,格式等,以进行分解或学习任务。在本文中,我们考虑了TN-SS的实用变体,称为TN置换搜索(TN-PS),其中我们在其中搜索从张量模式到TN顶点(核心张量)的良好映射以进行紧凑的TN表示。我们对TN-PS进行了理论研究,并提出了一种实际效率的算法来解决该问题。从理论上讲,我们证明了TN-PS的搜索空间的计数和度量属性,首次分析TN结构对这些唯一属性的影响。从数字上讲,我们提出了一种新颖的元元素算法,其中搜索是通过在我们理论中建立的邻域中随机采样来完成的,然后将其反复更新邻域直至收敛。数值结果表明,新算法可以减少广泛基准中TNS所需的模型大小,这意味着TNS的表达能力的提高。此外,新算法的计算成本明显小于〜\ cite {li2020进化}中的计算成本。
translated by 谷歌翻译
最先进的深神经网络(DNN)已广泛应用于各种现实世界应用,并实现了认知问题的显着性能。然而,架构中的DNNS宽度和深度的增量导致大量参数,以质询存储和内存成本,限制了DNN在资源受限平台上的使用,例如便携式设备。通过将冗余模型转换为紧凑的模型,压缩技术似乎是降低存储和存储器消耗的实用解决方案。在本文中,我们开发了一种非线性张量环网(NTRN),其中通过张量环分解压缩全连接和卷积层。此外,为了减轻压缩引起的精度损失,将非线性激活功能嵌入到压缩层内的张量收缩和卷积操作中。实验结果表明,使用两个基本神经网络,LENET-5和VGG-11在三个数据集,VIZ上使用两个基本的神经网络,LENET-5和VGG-11进行图像分类的有效性和优越性。 mnist,时尚mnist和cifar-10。
translated by 谷歌翻译
深度学习使用由其重量进行参数化的神经网络。通常通过调谐重量来直接最小化给定损耗功能来训练神经网络。在本文中,我们建议将权重重新参数转化为网络中各个节点的触发强度的目标。给定一组目标,可以计算使得发射强度最佳地满足这些目标的权重。有人认为,通过我们称之为级联解压缩的过程,使用培训的目标解决爆炸梯度的问题,并使损失功能表面更加光滑,因此导致更容易,培训更快,以及潜在的概括,神经网络。它还允许更容易地学习更深层次和经常性的网络结构。目标对重量的必要转换有额外的计算费用,这是在许多情况下可管理的。在目标空间中学习可以与现有的神经网络优化器相结合,以额外收益。实验结果表明了使用目标空间的速度,以及改进的泛化的示例,用于全连接的网络和卷积网络,以及调用和处理长时间序列的能力,并使用经常性网络进行自然语言处理。
translated by 谷歌翻译
Kronecker产品的自然概括是Kronecker产品的张量Kronecker产品,在多个研究社区中独立出现。像它们的矩阵对应物一样,张量的概括为隐式乘法和分解定理提供了结构。我们提出了一个定理,该定理将张量kronecker产品的主要特征向量分解,这是从矩阵理论到张量特征向量的罕见概括。该定理意味着在kronecker产品的张量功率方法的迭代中应该存在低级结构。我们研究了网络对齐算法TAME中的低等级结构,这是一种功率方法启发式方法。直接或通过新的启发式嵌入方法使用低级结构,我们生成的新算法在提高或保持准确性的同时更快,并扩展到无法通过现有技术实际处理的问题。
translated by 谷歌翻译
模型量化已成为加速深度学习推理的不可或缺的技术。虽然研究人员继续推动量化算法的前沿,但是现有量化工作通常是不可否认的和不可推销的。这是因为研究人员不选择一致的训练管道并忽略硬件部署的要求。在这项工作中,我们提出了模型量化基准(MQBench),首次尝试评估,分析和基准模型量化算法的再现性和部署性。我们为实际部署选择多个不同的平台,包括CPU,GPU,ASIC,DSP,并在统一培训管道下评估广泛的最新量化算法。 MQBENCK就像一个连接算法和硬件的桥梁。我们进行全面的分析,并找到相当大的直观或反向直观的见解。通过对齐训练设置,我们发现现有的算法在传统的学术轨道上具有大致相同的性能。虽然用于硬件可部署量化,但有一个巨大的精度差距,仍然不稳定。令人惊讶的是,没有现有的算法在MQBench中赢得每一项挑战,我们希望这项工作能够激发未来的研究方向。
translated by 谷歌翻译
过度分辨的神经网络概括井,但训练昂贵。理想情况下,人们希望减少其计算成本,同时保留其概括的益处。稀疏的模型培训是实现这一目标的简单和有希望的方法,但随着现有方法与准确性损失,慢速训练运行时的困难或困难,仍然存在挑战,仍然存在困难的挑战。核心问题是,在离散的一组稀疏矩阵上搜索稀疏性掩模是困难和昂贵的。为了解决此问题,我们的主要见解是通过具有称为蝴蝶矩阵产品的固定结构的固定结构来优化优化稀疏矩阵的连续超集。随着蝴蝶矩阵不是硬件效率,我们提出了简单的蝴蝶(块和平坦)的变体来利用现代硬件。我们的方法(像素化蝴蝶)使用基于扁平块蝴蝶和低秩矩阵的简单固定稀疏模式,以缩小大多数网络层(例如,注意,MLP)。我们经验验证了像素化蝴蝶比蝴蝶快3倍,加快培训,以实现有利的准确性效率权衡。在ImageNet分类和Wikitext-103语言建模任务中,我们的稀疏模型训练比致密的MLP - 混频器,视觉变压器和GPT-2媒体更快地训练高达2.5倍,没有精确下降。
translated by 谷歌翻译
To reduce the significant redundancy in deep Convolutional Neural Networks (CNNs), most existing methods prune neurons by only considering statistics of an individual layer or two consecutive layers (e.g., prune one layer to minimize the reconstruction error of the next layer), ignoring the effect of error propagation in deep networks. In contrast, we argue that it is essential to prune neurons in the entire neuron network jointly based on a unified goal: minimizing the reconstruction error of important responses in the "final response layer" (FRL), which is the secondto-last layer before classification, for a pruned network to retrain its predictive power. Specifically, we apply feature ranking techniques to measure the importance of each neuron in the FRL, and formulate network pruning as a binary integer optimization problem and derive a closed-form solution to it for pruning neurons in earlier layers. Based on our theoretical analysis, we propose the Neuron Importance Score Propagation (NISP) algorithm to propagate the importance scores of final responses to every neuron in the network. The CNN is pruned by removing neurons with least importance, and then fine-tuned to retain its predictive power. NISP is evaluated on several datasets with multiple CNN models and demonstrated to achieve significant acceleration and compression with negligible accuracy loss.
translated by 谷歌翻译
深度神经网络一直是分类任务成功的推动力,例如对象和音频识别。许多最近提出的架构似乎已经取得了令人印象深刻的结果和概括,其中大多数似乎是断开连接的。在这项工作中,我们在统一框架下对深层分类器进行了研究。特别是,我们以输入的不同程度多项式的形式表达最新的结构(例如残留和非本地网络)。我们的框架提供了有关每个模型的电感偏差的见解,并可以在其多项式性质上进行自然扩展。根据标准图像和音频分类基准评估所提出模型的功效。提出的模型的表达性既是在增加模型性能和模型压缩方面都突出的。最后,在存在有限的数据和长尾数据分布的情况下,此分类法所允许的扩展显示。我们希望这种分类法可以在现有特定领域的架构之间提供联系。源代码可在\ url {https://github.com/grigorisg9gr/polynomials-for-aigmenting-nns}中获得。
translated by 谷歌翻译
结构化修剪是一种常用的技术,用于将深神经网络(DNN)部署到资源受限的设备上。但是,现有的修剪方法通常是启发式,任务指定的,并且需要额外的微调过程。为了克服这些限制,我们提出了一个框架,将DNN压缩成纤薄的架构,具有竞争性表现,并且仅通过列车 - 一次(OTO)减少重大拖车。 OTO包含两个键:(i)我们将DNN的参数分区为零不变组,使我们能够修剪零组而不影响输出; (ii)促进零群,我们制定了结构性稀疏优化问题,提出了一种新颖的优化算法,半空间随机投影梯度(HSPG),以解决它,这优于组稀疏性探索的标准近端方法和保持可比的收敛性。为了展示OTO的有效性,我们从划痕上同时培训和压缩全模型,而无需微调推理加速和参数减少,并且在CIFAR10的VGG16实现最先进的结果,为CIFAR10和Squad的BERT为BERT竞争结果在resnet50上为想象成。源代码可在https://github.com/tianyic/only_train_once上获得。
translated by 谷歌翻译
目前,深层神经网络(DNN)主要使用一阶方法进行训练。其中一些方法(例如Adam,Adagrad和Rmsprop及其变体)通过使用对角线矩阵来预先处理随机梯度。最近,通过通过按层块 - diagonal矩阵对随机梯度进行预处理,已开发出有效的二阶方法,例如KFAC,K-BFGS,洗发水和TNT。在这里,我们提出了一种自适应的“迷你块Fisher(MBF)”预处理方法,其中在这两类方法之间。具体而言,我们的方法对经验渔民矩阵使用块对基近似值,在DNN中的每一层(无论是卷积还是馈送)和完全连接,相关的对角线本身都是块 - diagonal,并且由A组成。大量适度的迷你块。我们的新方法利用GPU的并行性来有效地对每一层的大量矩阵进行计算。因此,MBF的均值计算成本仅略高于一阶方法。将我们提出的方法的性能与在自动编码器和CNN问题上的几种基线方法进行了比较,以在时间效率和概括功率方面验证其有效性。最后,证明MBF的理想化版本线性收敛。
translated by 谷歌翻译