We consider the algorithmic problem of finding the optimal weights and biases for a two-layer fully connected neural network to fit a given set of data points. This problem is known as empirical risk minimization in the machine learning community. We show that the problem is $\exists\mathbb{R}$-complete. This complexity class can be defined as the set of algorithmic problems that are polynomial-time equivalent to finding real roots of a polynomial with integer coefficients. Furthermore, we show that arbitrary algebraic numbers are required as weights to be able to train some instances to optimality, even if all data points are rational. Our results hold even if the following restrictions are all added simultaneously. $\bullet$ There are exactly two output neurons. $\bullet$ There are exactly two input neurons. $\bullet$ The data has only 13 different labels. $\bullet$ The number of hidden neurons is a constant fraction of the number of data points. $\bullet$ The target training error is zero. $\bullet$ The ReLU activation function is used. This shows that even very simple networks are difficult to train. The result explains why typical methods for $\mathsf{NP}$-complete problems, like mixed-integer programming or SAT-solving, cannot train neural networks to global optimality, unless $\mathsf{NP}=\exists\mathbb{R}$. We strengthen a recent result by Abrahamsen, Kleist and Miltzow [NeurIPS 2021].
translated by 谷歌翻译
鉴于神经网络,训练数据和阈值,已知它是NP-HARD,用于找到神经网络的权重,使得总误差低于阈值。我们精确地确定了这种基本问题的算法复杂性,通过表示它是$ \存在\ mathbb r $ -complete。这意味着问题是等同的,达到多项式时间减少,以决定多项式方程和具有整数系数的不等式和真实未知的不平等是否具有解决方案。如果广泛预期,$ \存在\ MathBB r $严格大于NP,我们的工作意味着培训神经网络的问题甚至不是在NP中。通常使用反向化的一些变异培训神经网络。本文的结果提供了一种解释,为什么常用的技术常用于NP完全问题的大实例似乎不用于此任务。这种技术的示例是SAT求解器,IP求解器,本地搜索,动态编程,命名几个一般的。
translated by 谷歌翻译
连续约束满意度问题(CCSP)是一个约束满意度问题(CSP),其间隔域$ u \ subset \ mathbb {r} $。我们进行了一项系统的研究,以对CCSP进行分类,这些CCSP已完成现实的存在理论,即ER完整。为了定义该类别,我们首先考虑ETR问题,该问题也代表了真实的存在理论。在此问题的情况下,我们给出了$ \ compant x_1,\ ldots,x_n \ in \ mathbb {r}的某个句子:\ phi(x_1,\ ldots,x_n)$,其中$ \ phi $ is由符号$ \ {0、1, +,\ cdot,\ geq,>,\ wedge,\ vee,\ neg \} $组成的符号符号的公式正确。 。现在,ER是所有问题的家族,这些家族允许多项式时间降低到ETR。众所周知,np $ \ subseteq $ er $ \ subseteq $ pspace。我们将注意力限制在CCSP上,并具有附加限制($ x + y = z $)和其他一些轻度的技术状况。以前,已经显示出乘法约束($ x \ cdot y = z $),平方约束($ x^2 = y $)或反转约束($ x \ cdot y = 1 $)足以建立ER-完整性。如下所示,我们以最大的平等约束来扩展这一点。我们表明,CCSP(具有附加限制和其他轻度技术状况)具有任何一个表现良好的弯曲平等约束($ f(x,y)= 0 $)的CCSP是ER的曲线限制($ F(x,y)= 0 $)。我们将结果进一步扩展到不平等约束。我们表明,任何行为良好的凸出弯曲且行为良好的凹陷弯曲的不平等约束($ f(x,y)\ geq 0 $ and $ g(x,x,y)\ geq 0 $)暗示着班级的ER完整性这种CCSP。
translated by 谷歌翻译
我们有助于更好地理解由具有Relu激活和给定架构的神经网络表示的功能。使用来自混合整数优化,多面体理论和热带几何的技术,我们为普遍近似定理提供了数学逆向,这表明单个隐藏层足以用于学习任务。特别是,我们调查完全可增值功能是否完全可以通过添加更多层(没有限制大小)来严格增加。由于它为神经假设类别代表的函数类提供给算法和统计方面,这个问题对算法和统计方面具有潜在的影响。然而,据我们所知,这个问题尚未在神经网络文学中调查。我们还在这些神经假设类别中代表功能所需的神经网络的大小上存在上限。
translated by 谷歌翻译
了解训练具有整流线性单元(RELUS)的训练简单神经网络的计算复杂性最近是一项深入研究的主题。缩小差距和文献的补充结果,我们提供了有关训练两层relu网络的参数复杂性相对于各种损失函数的几个结果。经过对其他参数的简要讨论,我们着重分析培训数据对计算复杂性的尺寸$ d $的影响。我们根据w [1]的参数$ d $提供运行时间的下限,并证明已知的蛮力策略基本上是最佳的(假设指数时间假设)。与以前的工作相比,我们的结果适用于广泛(ER)范围的损失功能,包括[0,\ infty] $中的所有$ p \ for $ \ ell^p $ -loss。特别是,我们将已知的多项式时间算法扩展到常数$ d $,并将凸损失函数扩展到更一般的损耗函数,在这些情况下,我们的运行时间下限也匹配。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
我们研究了神经网络中平方损耗训练问题的优化景观和稳定性,但通用非线性圆锥近似方案。据证明,如果认为非线性圆锥近似方案是(以适当定义的意义)比经典线性近似方法更具表现力,并且如果存在不完美的标签向量,则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值,这可能是从全球解决方案的任意遥远的,并且既不训练问题也不是训练问题的不稳定性通常,杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足,后一种结果都被证明是正确的。我们表明,我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题,其涉及各种激活功能的任意混合(例如,二进制,六骨,Tanh,arctan,软标志, ISRU,Soft-Clip,SQNL,Relu,Lifley Relu,Soft-Plus,Bent Identity,Silu,Isrlu和ELU)。总之,本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接,以便训练它们。
translated by 谷歌翻译
本文研究了人工神经网络(NNS)与整流线性单元的表现力。为了将它们作为实际计算的模型,我们介绍了最大仿射算术计划的概念,并显示了它们与NNS之间的等效性有关自然复杂度措施。然后我们使用此结果表明,使用多项式NNS可以解决两个基本组合优化问题,这相当于非常特殊的强多项式时间算法。首先,我们显示,对于带有N $节点的任何无向图形,有一个NN大小$ \ Mathcal {O}(n ^ 3)$,它将边缘权重用为输入,计算最小生成树的值图表。其次,我们显示,对于任何带有$ N $节点和$ M $弧的任何定向图,都有一个尺寸$ \ mathcal {o}(m ^ 2n ^ 2)$,它将电弧容量作为输入和计算最大流量。这些结果尤其尤其暗示,相应的参数优化问题的解决方案可以在多项式空间中编码所有边缘权重或电弧容量的方法,并在多项式时间中进行评估,并且由NN提供这种编码。
translated by 谷歌翻译
We study the expressibility and learnability of convex optimization solution functions and their multi-layer architectural extension. The main results are: \emph{(1)} the class of solution functions of linear programming (LP) and quadratic programming (QP) is a universal approximant for the $C^k$ smooth model class or some restricted Sobolev space, and we characterize the rate-distortion, \emph{(2)} the approximation power is investigated through a viewpoint of regression error, where information about the target function is provided in terms of data observations, \emph{(3)} compositionality in the form of a deep architecture with optimization as a layer is shown to reconstruct some basic functions used in numerical analysis without error, which implies that \emph{(4)} a substantial reduction in rate-distortion can be achieved with a universal network architecture, and \emph{(5)} we discuss the statistical bounds of empirical covering numbers for LP/QP, as well as a generic optimization problem (possibly nonconvex) by exploiting tame geometry. Our results provide the \emph{first rigorous analysis of the approximation and learning-theoretic properties of solution functions} with implications for algorithmic design and performance guarantees.
translated by 谷歌翻译
在本文中,我们在具有线性阈值激活功能的神经网络上提出了新的结果。我们精确地表征了这种神经网络可表示的功能,并且显示2个隐藏层是必要的并且足以表示类中可表示的任何功能。鉴于使用其他流行的激活功能的神经网络的最近精确的可比性调查,这是一个令人惊讶的结果,这些功能使用其他流行的激活功能,如整流的线性单元(Relu)。我们还给出了代表类中任意函数所需的神经网络的大小的精确界限。最后,我们设计了一种算法来解决具有固定架构的这些神经网络的全球最优性的经验风险最小化(ERM)问题。如果输入维度和网络架构的大小被认为是固定常数,则算法的运行时间是数据样本大小的多项式。该算法的意义上是独一无二的,即它适用于任何数量的层数,而先前的多项式时间全局最佳算法仅适用于非常受限制的架构类。
translated by 谷歌翻译
众所周知,具有重新激活函数的完全连接的前馈神经网络可以表示的参数化函数家族恰好是一类有限的分段线性函数。鲜为人知的是,对于Relu神经网络的每个固定架构,参数空间都允许对称的正维空间,因此,在任何给定参数附近的局部功能维度都低于参数维度。在这项工作中,我们仔细地定义了功能维度的概念,表明它在Relu神经网络函数的参数空间中是不均匀的,并继续进行[14]和[5]中的调查 - 何时在功能维度实现其理论时最大。我们还研究了从参数空间到功能空间的实现图的商空间和纤维,提供了断开连接的纤维的示例,功能尺寸为非恒定剂的纤维以及对称组在其上进行非转换的纤维。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
本文开发了简单的前馈神经网络,实现了所有连续功能的通用近似性,具有固定的有限数量的神经元。这些神经网络很简单,因为它们的设计具有简单且可增加的连续激活功能$ \ Sigma $利用三角波函数和软片功能。我们证明了$ \ Sigma $ -Activated网络,宽度为36d $ 36d(2d + 1)$和11 $ 11 $可以在任意小错误中估计$ d $ -dimensioanl超级函数上的任何连续功能。因此,对于监督学习及其相关的回归问题,这些网络产生的假设空间,尺寸不小于36d(2d + 1)\ times 11 $的持续功能的空间。此外,由图像和信号分类引起的分类函数在$ \ sigma $ -activated网络生成的假设空间中,宽度为36d(2d + 1)$和12 $ 12 $,当存在$ \的成对不相交的界限子集时mathbb {r} ^ d $,使得同一类的样本位于同一子集中。
translated by 谷歌翻译
我们研究了(深)神经网络的可及性问题的复杂性:它是否计算出有效输入的有效输出?最近有人声称,对于一般神经网络的问题,该问题是通用神经网络的NP算法,并且在线性不等式的结合给出的输入/输出维度上的规格是NP的。我们概括了证明并修复原始上和下限证明中的一些缺陷。在总体结果的激励下,我们表明NP硬度已经适用于限制的简单规格和神经网络。允许仅一个隐藏层和一个单个的输出维度以及仅一个负,零和一个正重或偏置的神经网络,足以确保NP硬度。此外,我们为有关神经网络验证的这一研究方向进行了详尽的讨论和可能的扩展。
translated by 谷歌翻译
本文的目标是两倍。第一个目标是作为深度学习模型的工作的陈述教程,这强调了关于深度学习成功原因的几何直觉。第二个目标是补充当前的结果对深度学习模型的表现力及其具有新颖洞察力和结果的损失。特别是,我们描述了深度神经网络如何雕刻歧管,尤其是当乘法神经元引入倍增神经元时。乘法用于点产品和注意机制,它采用胶囊网络和基于自我关注的变压器。我们还描述了如何对损耗表面上的随机多项式,随机矩阵,旋转玻璃和计算复杂性观点是互连的。
translated by 谷歌翻译
Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.
translated by 谷歌翻译
每个已知的人工深神经网络(DNN)都对应于规范Grothendieck的拓扑中的一个物体。它的学习动态对应于此拓扑中的形态流动。层中的不变结构(例如CNNS或LSTMS)对应于Giraud的堆栈。这种不变性应该是对概括属性的原因,即从约束下的学习数据中推断出来。纤维代表语义前类别(Culioli,Thom),在该类别上定义了人工语言,内部逻辑,直觉主义者,古典或线性(Girard)。网络的语义功能是其能够用这种语言表达理论的能力,以回答输出数据中有关输出的问题。语义信息的数量和空间是通过类比与2015年香农和D.Bennequin的Shannon熵的同源解释来定义的。他们概括了Carnap和Bar-Hillel(1952)发现的措施。令人惊讶的是,上述语义结构通过封闭模型类别的几何纤维对象进行了分类,然后它们产生了DNNS及其语义功能的同位不变。故意类型的理论(Martin-Loef)组织了这些物体和它们之间的纤维。 Grothendieck的导数分析了信息内容和交流。
translated by 谷歌翻译
了解通过随机梯度下降(SGD)训练的神经网络的特性是深度学习理论的核心。在这项工作中,我们采取了平均场景,并考虑通过SGD培训的双层Relu网络,以实现一个非变量正则化回归问题。我们的主要结果是SGD偏向于简单的解决方案:在收敛时,Relu网络实现输入的分段线性图,以及“结”点的数量 - 即,Relu网络估计器的切线变化的点数 - 在两个连续的训练输入之间最多三个。特别地,随着网络的神经元的数量,通过梯度流的解决方案捕获SGD动力学,并且在收敛时,重量的分布方法接近相关的自由能量的独特最小化器,其具有GIBBS形式。我们的主要技术贡献在于分析了这一最小化器产生的估计器:我们表明其第二阶段在各地消失,除了代表“结”要点的一些特定地点。我们还提供了经验证据,即我们的理论预测的不同可能发生与数据点不同的位置的结。
translated by 谷歌翻译
我们提供了在Relu神经网络层的动作下不变的概率分布系列的完整表征。在贝叶斯网络培训期间出现对这些家庭的需求或对训练有素的神经网络的分析,例如,在不确定量化(UQ)或解释的人工智能(XAI)的范围内。我们证明,除非以下三个限制中的至少一个限制,否则不可能存在不变的参数化分布族:首先,网络层具有一个宽度,这对于实际神经网络是不合理的。其次,家庭的概率措施具有有限的支持,基本上适用于采样分布。第三,家庭的参数化不是局部Lipschitz连续,这排除了所有计算可行的家庭。最后,我们表明这些限制是单独必要的。对于三种情况中的每一个,我们可以构建一个不变的家庭,究竟是一个限制之一,但不是另一个。
translated by 谷歌翻译