深度神经网络(DNN)在解决各种领域的不同任务方面取得了非凡的性能。然而,传统的DNN模型通过损耗反向化稳定地接近地面真值。在某些应用中,可以容易地获得一些先验的知识,例如在遵循地面真理观察的约束。在这里,我们尝试提供一种普遍的方法来从这些约束中纳入信息以增强DNN的性能。从理论上讲,我们可以将这些类型的问题制定为KKT条件可以解决的受限优化问题。在本文中,我们建议在DNN中使用可分化的投影层,而不是直接求解耗时的KKT条件。所提出的投影方法可分辨,并且不需要重大计算。最后,我们还使用Pascal VOC DataSet使用随机生成的合成数据集和图像分割任务进行了一些实验,以评估所提出的投影方法的性能。实验结果表明,投影方法足够且优于基线方法。
translated by 谷歌翻译
预测+优化是一个常见的真实范式,在那里我们必须在解决优化问题之前预测问题参数。然而,培训预测模型的标准通常与下游优化问题的目标不一致。最近,已经提出了集中的预测方法,例如Spo +和直接优化,以填补这种差距。但是,它们不能直接处理许多真实目标所需的$最大$算子的软限制。本文提出了一种用于现实世界线性和半定义负二次编程问题的新型分析微弱的代理目标框架,具有软线和非负面的硬度约束。该框架给出了约束乘法器上的理论界限,并导出了关于预测参数的闭合形式解决方案,从而导出问题中的任何变量的梯度。我们在使用软限制扩展的三个应用程序中评估我们的方法:合成线性规划,产品组合优化和资源供应,表明我们的方法优于传统的双阶段方法和其他集中决定的方法。
translated by 谷歌翻译
机器学习在解决无线干扰管理问题方面取得了成功。已经培训了不同种类的深神经网络(DNN),以完成功率控制,波束成形和准入控制等关键任务。基于DNNS的干扰管理模型有两个流行的培训范式:监督学习(即,由优化算法产生的拟合标签)和无监督的学习(即,直接优化一些系统性能测量)。虽然这两种范式都在实践中广泛应用,但由于对这些方法缺乏任何理论理解,但目前尚不清楚如何系统地理解和比较他们的性能。在这项工作中,我们开展理论研究,为这两个训练范例提供了一些深入的了解。首先,我们展示了一些令人惊讶的结果,即对于一些特殊的功率控制问题,无监督的学习可以表现比监督对手更糟糕,因为它更有可能陷入一些低质量的本地解决方案。然后,我们提供了一系列理论结果,以进一步了解两种方法的性质。一般来说,我们表明,当有高质量的标签可用时,监督学习不太可能陷入解决方案,而不是无监督的对应物。此外,我们开发了一种半监督的学习方法,可以妥善整合这两个训练范例,可以有效地利用有限数量的标签来找到高质量的解决方案。为了我们的知识,这些是第一种在基于学习的无线通信系统设计中了解不同培训方法的第一组理论结果。
translated by 谷歌翻译
我们提出了一个基于一般学习的框架,用于解决非平滑和非凸图像重建问题。我们将正则函数建模为$ l_ {2,1} $ norm的组成,并将平滑但非convex功能映射参数化为深卷积神经网络。我们通过利用Nesterov的平滑技术和残留学习的概念来开发一种可证明的趋同的下降型算法来解决非平滑非概念最小化问题,并学习网络参数,以使算法的输出与培训数据中的参考匹配。我们的方法用途广泛,因为人们可以将各种现代网络结构用于正规化,而所得网络继承了算法的保证收敛性。我们还表明,所提出的网络是参数有效的,其性能与实践中各种图像重建问题中的最新方法相比有利。
translated by 谷歌翻译
我们介绍了正规化的弗兰克 - 沃尔夫(Frank-Wolfe),这是一种通用有效的算法,用于推断和学习密集的有条件随机场(CRF)。该算法使用Vanilla Frank-Wolfe优化了CRF推理问题的不连续放松,并具有近似更新,这相当于最大程度地减少正则能量函数。我们提出的方法是对现有算法(例如平均字段或凹形通用程序)的概括。这种观点不仅提供了对这些算法的统一分析,而且还允许一种简单的方法来探索不同的变体,这些变体可能会产生更好的性能。我们在标准语义分割数据集的经验结果中说明了这一点,在该数据集中,我们正规化的Frank-Wolfe优于均值均值推断的几个实例化,无论是独立的组件还是作为神经网络中的端到端可训练层。我们还表明,密集的CRF与我们的新算法相结合,对强CNN基准产生了重大改进。
translated by 谷歌翻译
人工神经网络(ANN)训练景观的非凸起带来了固有的优化困难。虽然传统的背传播随机梯度下降(SGD)算法及其变体在某些情况下是有效的,但它们可以陷入杂散的局部最小值,并且对初始化和普通公共表敏感。最近的工作表明,随着Relu激活的ANN的培训可以重新重整为凸面计划,使希望能够全局优化可解释的ANN。然而,天真地解决凸训练制剂具有指数复杂性,甚至近似启发式需要立方时间。在这项工作中,我们描述了这种近似的质量,并开发了两个有效的算法,这些算法通过全球收敛保证培训。第一算法基于乘法器(ADMM)的交替方向方法。它解决了精确的凸形配方和近似对应物。实现线性全局收敛,并且初始几次迭代通常会产生具有高预测精度的解决方案。求解近似配方时,每次迭代时间复杂度是二次的。基于“采样凸面”理论的第二种算法更简单地实现。它解决了不受约束的凸形制剂,并收敛到大约全球最佳的分类器。当考虑对抗性培训时,ANN训练景观的非凸起加剧了。我们将稳健的凸优化理论应用于凸训练,开发凸起的凸起制剂,培训Anns对抗对抗投入。我们的分析明确地关注一个隐藏层完全连接的ANN,但可以扩展到更复杂的体系结构。
translated by 谷歌翻译
The semantic image segmentation task presents a trade-off between test time accuracy and training-time annotation cost. Detailed per-pixel annotations enable training accurate models but are very timeconsuming to obtain; image-level class labels are an order of magnitude cheaper but result in less accurate models. We take a natural step from image-level annotation towards stronger supervision: we ask annotators to point to an object if one exists. We incorporate this point supervision along with a novel objectness potential in the training loss function of a CNN model. Experimental results on the PASCAL VOC 2012 benchmark reveal that the combined effect of point-level supervision and objectness potential yields an improvement of 12.9% mIOU over image-level supervision. Further, we demonstrate that models trained with pointlevel supervision are more accurate than models trained with image-level, squiggle-level or full supervision given a fixed annotation budget.
translated by 谷歌翻译
由于固有的DNN预测误差,确保解决方案可行性是开发用于解决受约束优化问题的深度神经网络(DNN)方案的关键挑战。在本文中,我们提出了一种“预防性学习”的框架,以系统地保证DNN解决方案可行性的凸起约束和一般客观函数的问题。我们首先应用预测和重建设计,不仅保证平等约束,还可以利用它们来减少DNN预测的变量的数量。然后,作为关键方法贡献,我们系统地校准了DNN训练中使用的不等式约束,从而预测预测误差并确保所得到的解决方案仍然可行。我们表征校准量大和DNN尺寸,足以确保通用可行性。我们提出了一种新的敌对样本意识到培训算法,以改善DNN的最优性能而不牺牲可行性保证。总的来说,该框架提供了两个DNN。表征足够的DNN大小的第一个可以保证通用可行性,而来自所提出的培训算法的另一个进一步提高了最优性并同时保持DNN的通用可行性。我们应用预防性学习框架来开发Deepopf +,以解决网格运行中的基本DC最佳功率流量问题。它在确保在轻负载和重载制度中的可行性和获得一致的理想加速性能时,它可以改善现有的基于DNN的方案。仿真结果对IEEE案例-30 / 118/300测试用例显示DeepoPF +与最优性损失的最优损失和最高幅度计算加速度为100 \%$ 0.5%的可行解决方案,相比之下艺术迭代求解器。
translated by 谷歌翻译
本文介绍了OptNet,该网络架构集成了优化问题(这里,专门以二次程序的形式),作为较大端到端可训练的深网络中的单个层。这些层在隐藏状态之间编码约束和复杂依赖性,传统的卷积和完全连接的层通常无法捕获。我们探索这种架构的基础:我们展示了如何使用敏感性分析,彼得优化和隐式差分的技术如何通过这些层和相对于层参数精确地区分;我们为这些层开发了一种高效的解算器,用于利用基于GPU的基于GPU的批处理在原始 - 双内部点法中解决,并且在求解的顶部几乎没有额外的成本提供了反向衰减梯度;我们突出了这些方法在几个问题中的应用。在一个值得注意的示例中,该方法学习仅在输入和输出游戏中播放Mini-sudoku(4x4),没有关于游戏规则的a-priori信息;这突出了OptNet比其他神经架构更好地学习硬限制的能力。
translated by 谷歌翻译
Recent studies have revealed that, beyond conventional accuracy, calibration should also be considered for training modern deep neural networks. To address miscalibration during learning, some methods have explored different penalty functions as part of the learning objective, alongside a standard classification loss, with a hyper-parameter controlling the relative contribution of each term. Nevertheless, these methods share two major drawbacks: 1) the scalar balancing weight is the same for all classes, hindering the ability to address different intrinsic difficulties or imbalance among classes; and 2) the balancing weight is usually fixed without an adaptive strategy, which may prevent from reaching the best compromise between accuracy and calibration, and requires hyper-parameter search for each application. We propose Class Adaptive Label Smoothing (CALS) for calibrating deep networks, which allows to learn class-wise multipliers during training, yielding a powerful alternative to common label smoothing penalties. Our method builds on a general Augmented Lagrangian approach, a well-established technique in constrained optimization, but we introduce several modifications to tailor it for large-scale, class-adaptive training. Comprehensive evaluation and multiple comparisons on a variety of benchmarks, including standard and long-tailed image classification, semantic segmentation, and text classification, demonstrate the superiority of the proposed method. The code is available at https://github.com/by-liu/CALS.
translated by 谷歌翻译
我们引入了一种新型的数学公式,用于训练以(可能非平滑)近端图作为激活函数的馈送前向神经网络的培训。该公式基于布雷格曼的距离,关键优势是其相对于网络参数的部分导数不需要计算网络激活函数的导数。我们没有使用一阶优化方法和后传播的组合估算参数(如最先进的),而是建议使用非平滑一阶优化方法来利用特定结构新颖的表述。我们提出了几个数值结果,这些结果表明,与更常规的培训框架相比,这些训练方法可以很好地很好地适合于培训基于神经网络的分类器和具有稀疏编码的(DeNoising)自动编码器。
translated by 谷歌翻译
Jaccard索引,也称为交叉联盟(iou),是图像语义分段中最关键的评估度量之一。然而,由于学习目的既不可分解也不是可分解的,则iou得分的直接优化是非常困难的。虽然已经提出了一些算法来优化其代理,但没有提供泛化能力的保证。在本文中,我们提出了一种边缘校准方法,可以直接用作学习目标,在数据分布上改善IOO的推广,通过刚性下限为基础。本方案理论上,根据IOU分数来确保更好的分割性能。我们评估了在七个图像数据集中所提出的边缘校准方法的有效性,显示使用深度分割模型的其他学习目标的IOU分数大量改进。
translated by 谷歌翻译
我们考虑非线性优化问题,涉及神经网络代表代理模型。我们首先展示了如何直接将神经网络评估嵌入优化模型中,突出难以防止收敛的方法,然后表征这些模型的平稳性。然后,我们在具有Relu激活的前馈神经网络的特定情况下存在两种替代配方,其具有recu激活:作为混合整数优化问题,作为具有互补限制的数学程序。对于后一种制剂,我们证明了在该问题的点处的有同性,对应于嵌入式制剂的实质性。这些配方中的每一个都可以用最先进的优化方法来解决,并且我们展示了如何为这些方法获得良好的初始可行解决方案。我们将三种实际应用的配方进行比较,在燃烧发动机的设计和控制中产生的三种实际应用,在对分类器网络的对抗攻击中产生的产生,以及在油井网中的最佳流动确定。
translated by 谷歌翻译
作为众所周知的优化框架,乘法器(ADMM)的交替方向方法在许多分类和回归应用中取得了巨大的成功。最近,它引起了深度学习研究人员的注意,被认为是梯度下降(GD)的潜在替代品。然而,作为新兴领域,一些挑战仍未解决,包括1)缺乏全球收敛保证,2)对解决方案的收敛缓慢,以及3)立方时间复杂于特征尺寸。在本文中,我们提出了一种新颖的优化框架,以通过ADMM(DLADMM)解决一般神经网络训练问题,同时解决这些挑战。具体地,每层中的参数被向后更新,然后向前移动,以便有效地交换每层中的参数信息。当DLADMM应用于特定架构时,通过使用二次近似和回溯技术,通过专用算法设计从立方到二次数据的时间复杂度。最后但并非最不重要的是,我们在温和条件下向第一个趋同的趋同点提供延长的临界点(DLADMM)。七个基准数据集的实验证明了我们提出的DLADMM算法的收敛性,效率和有效性。
translated by 谷歌翻译
Large-scale data is of crucial importance for learning semantic segmentation models, but annotating per-pixel masks is a tedious and inefficient procedure. We note that for the topic of interactive image segmentation, scribbles are very widely used in academic research and commercial software, and are recognized as one of the most userfriendly ways of interacting. In this paper, we propose to use scribbles to annotate images, and develop an algorithm to train convolutional networks for semantic segmentation supervised by scribbles. Our algorithm is based on a graphical model that jointly propagates information from scribbles to unmarked pixels and learns network parameters. We present competitive object semantic segmentation results on the PASCAL VOC dataset by using scribbles as annotations. Scribbles are also favored for annotating stuff (e.g., water, sky, grass) that has no well-defined shape, and our method shows excellent results on the PASCAL-CONTEXT dataset thanks to extra inexpensive scribble annotations. Our scribble annotations on PASCAL VOC are available at http://research.microsoft.com/en-us/um/ people/jifdai/downloads/scribble_sup.
translated by 谷歌翻译
尽管深度神经网络(DNN)在感知和控制任务中表现出令人难以置信的性能,但几个值得信赖的问题仍然是开放的。其中一个最讨论的主题是存在对抗扰动的存在,它在能够量化给定输入的稳健性的可提供技术上开辟了一个有趣的研究线。在这方面,来自分类边界的输入的欧几里德距离表示良好被证明的鲁棒性评估,作为最小的经济适用的逆势扰动。不幸的是,由于NN的非凸性质,计算如此距离非常复杂。尽管已经提出了几种方法来解决这个问题,但据我们所知,没有提出可证明的结果来估计和绑定承诺的错误。本文通过提出两个轻量级策略来寻找最小的对抗扰动来解决这个问题。不同于现有技术,所提出的方法允许与理论上的近似距离的误差估计理论配制。最后,据报道,据报道了大量实验来评估算法的性能并支持理论发现。所获得的结果表明,该策略近似于靠近分类边界的样品的理论距离,导致可提供对任何对抗攻击的鲁棒性保障。
translated by 谷歌翻译
非convex受限的优化问题可用于模拟许多机器学习问题,例如多级Neyman-Pearson分类和受限的Markov决策过程。但是,由于目标和约束可能是非概念,因此这些问题都是具有挑战性的,因此很难平衡减少损失价值和减少约束违规行为的平衡。尽管有几种方法可以解决此类问题,但它们都是双环或三环算法,它们需要Oracles来解决某些子问题,通过在每次迭代中调整多个超级参数,以达到某些准确性。在本文中,我们提出了一种新型的梯度下降和扰动的上升(GDPA)算法,以解决一类平滑的非概念不平等的限制问题。 GDPA是一种原始的偶算法,仅利用目标和约束函数的一阶信息,以交替的方式更新原始变量和双重变量。该算法的关键特征是它是一种单循环算法,其中只需要调整两个步骤尺寸。我们表明,在轻度的规律性条件下,GDPA能够找到非convex功能约束问题的Karush-Kuhn-Tucker(KKT)点,并保证了收敛率。据我们所知,这是第一个可以通过非convex不等式约束来解决一般非凸的平滑问题的单循环算法。与最著名的算法相比,数值结果还显示了GDPA的优越性(就平稳性测量和获得的溶液的可行性而言)。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
Deep Neural Networks (DNNs) have substantially improved the state-of-the-art in salient object detection. However, training DNNs requires costly pixel-level annotations. In this paper, we leverage the observation that imagelevel tags provide important cues of foreground salient objects, and develop a weakly supervised learning method for saliency detection using image-level tags only. The Foreground Inference Network (FIN) is introduced for this challenging task. In the first stage of our training method, FIN is jointly trained with a fully convolutional network (FCN) for image-level tag prediction. A global smooth pooling layer is proposed, enabling FCN to assign object category tags to corresponding object regions, while FIN is capable of capturing all potential foreground regions with the predicted saliency maps. In the second stage, FIN is fine-tuned with its predicted saliency maps as ground truth. For refinement of ground truth, an iterative Conditional Random Field is developed to enforce spatial label consistency and further boost performance.Our method alleviates annotation efforts and allows the usage of existing large scale training sets with image-level tags. Our model runs at 60 FPS, outperforms unsupervised ones with a large margin, and achieves comparable or even superior performance than fully supervised counterparts.
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译