我们提出了一种基于深度多实例学习的简单高效的图像分类架构,并将其应用于牙科射线照片中龋齿检测的具有挑战性的任务。从技术上讲,我们的方法有两种方式贡献:首先,尽管使用弱图像级标签培训,它尽管培训了本地补丁分类概率的热线图。其次,它可以从分段标签学习,从而指导培训。与现有方法相比,人类用户可以忠实地解释预测并与模型进行交互以决定参加哪些区域。实验是在$ \ SIM $ 38K Bitewings($ \ SIM $ 316K牙齿)的大型临床数据集上进行的,在那里我们与各种基线相比实现了竞争性能。当由外部龋齿分割模型引导时,观察到分类和定位性能的显着改善。
translated by 谷歌翻译
We explore the ability of overparameterized shallow ReLU neural networks to learn Lipschitz, non-differentiable, bounded functions with additive noise when trained by Gradient Descent (GD). To avoid the problem that in the presence of noise, neural networks trained to nearly zero training error are inconsistent in this class, we focus on the early-stopped GD which allows us to show consistency and optimal rates. In particular, we explore this problem from the viewpoint of the Neural Tangent Kernel (NTK) approximation of a GD-trained finite-width neural network. We show that whenever some early stopping rule is guaranteed to give an optimal rate (of excess risk) on the Hilbert space of the kernel induced by the ReLU activation function, the same rule can be used to achieve minimax optimal rate for learning on the class of considered Lipschitz functions by neural networks. We discuss several data-free and data-dependent practically appealing stopping rules that yield optimal rates.
translated by 谷歌翻译
Heating in private households is a major contributor to the emissions generated today. Heat pumps are a promising alternative for heat generation and are a key technology in achieving our goals of the German energy transformation and to become less dependent on fossil fuels. Today, the majority of heat pumps in the field are controlled by a simple heating curve, which is a naive mapping of the current outdoor temperature to a control action. A more advanced control approach is model predictive control (MPC) which was applied in multiple research works to heat pump control. However, MPC is heavily dependent on the building model, which has several disadvantages. Motivated by this and by recent breakthroughs in the field, this work applies deep reinforcement learning (DRL) to heat pump control in a simulated environment. Through a comparison to MPC, it could be shown that it is possible to apply DRL in a model-free manner to achieve MPC-like performance. This work extends other works which have already applied DRL to building heating operation by performing an in-depth analysis of the learned control strategies and by giving a detailed comparison of the two state-of-the-art control methods.
translated by 谷歌翻译
本文介绍了一种简单的有效学习算法,用于一般顺序决策。该算法将探索的乐观与模型估计的最大似然估计相结合,因此被命名为OMLE。我们证明,Omle了解了多项式数量的样本中一系列非常丰富的顺序决策问题的近乎最佳策略。这个丰富的类别不仅包括大多数已知的基于模型的基于模型的强化学习(RL)问题(例如表格MDP,计算的MDP,低证人等级问题,表格弱弱/可观察到的POMDP和多步可解码的POMDP),但是同样,许多新的具有挑战性的RL问题,尤其是在可观察到的部分环境中,这些问题以前尚不清楚。值得注意的是,本文解决的新问题包括(1)具有连续观察和功能近似的可观察到的POMDP,在其中我们实现了完全独立于观察空间的第一个样品复杂性; (2)条件良好的低级顺序决策问题(也称为预测状态表示(PSRS)),其中包括并概括了所有已知的可牵引的POMDP示例,这些示例在更固有的表示下; (3)在帆条件下进行一般顺序决策问题,这统一了我们在完全可观察和部分可观察的设置中对基于模型的RL的现有理解。帆条件是由本文确定的,可以将其视为贝尔曼/证人等级的自然概括,以解决部分可观察性。
translated by 谷歌翻译
在大型数据集上,对视力任务的深度学习模型进行了培训,因为存在一个通用表示,可用于对所有样本进行预测。尽管事实证明,高复杂性模型能够学习此类表示,但对数据的特定子集进行了培训的专家,可以更有效地推断出标签。然而,使用专家的混合物会提出两个新问题,即(i)在提出新的看不见的样本时分配正确的专家。 (ii)找到培训数据的最佳分区,以使专家最依赖于共同特征。在动态路由(DR)中,提出了一个新颖的体系结构,其中每层由一组专家组成,但是在没有解决这两个挑战的情况下,我们证明该模型可以恢复使用相同的专家子集。在我们的方法中,对多元化的动态路由(DIVDR)进行了明确培训,以解决找到数据相关分区并以无监督的方法分配正确的专家的挑战。我们对MS-Coco的城市景观和对象检测以及实例分割进行了几项实验,显示了几个基线的性能的改善。
translated by 谷歌翻译
业务流程的自动化和数字化导致信息系统中捕获的大量数据,这可以帮助企业更好地理解其流程,改善工作流或提供运营支持。通过对正在进行的过程进行预测,可以识别瓶颈并重新分配资源,以及在过程实例的状态(案例)中获得的见解。传统上,数据是以带有单个识别案例概念的事件日志的形式从系统中提取的,例如用于现金订单(O2C)流程的订单ID。但是,实际过程通常具有多种对象类型,例如订单,项目和软件包,因此强制使用单个案例概念的格式不会反映数据中的基本关系。引入了以对象为中心的事件日志(OCEL)格式,以正确捕获此信息。最先进的预测方法仅根据传统事件日志量身定制。该论点表明,可以使用OCEL中包含的丰富数据来增强一种利用生成对抗网络(GAN),长期记忆(LSTM)体系结构(SEQ2SEQ)的预测方法。 OCEL中的对象可以具有可用于预测下一个事件和时间戳的属性,例如对于对象类型包的优先类属性,指示速度较慢或更快地处理。在预测剩余事件的序列相似性和时间戳的平均绝对误差(MAE)的指标中,本文中的方法匹配或超过了先前的研究,具体取决于所选对象属性是否是模型的有用特征。此外,本文提供了一个Web界面,以预测用户输入中的下一个活动序列。
translated by 谷歌翻译
与表征解决马尔可夫决策过程(MDP)样品复杂性的进步相反,解决约束MDP(CMDP)的最佳统计复杂性仍然未知。我们通过在折扣CMDP中学习近乎最佳策略的样本复杂性上的最小上限和下限来解决这个问题,并访问生成模型(模拟器)。特别是,我们设计了一种基于模型的算法,该算法解决了两个设置:(i)允许违反小小的约束的可行性,以及(ii)严格的可行性,其中需要输出策略来满足约束。对于(i),我们证明我们的算法通过制作$ \ tilde {o} \ left(\ frac {s a \ log(1/\ delta)来返回带有概率$ 1- \ delta $的$ \ epsilon $ - 优势策略} {(1- \ gamma)^3 \ epsilon^2} \ right)$ QUERIES $ QUERIES与生成模型相匹配,因此与无约束的MDP的样品复杂性匹配。对于(ii),我们表明该算法的样本复杂性是由$ \ tilde {o} \ left(\ frac {s a a \ log,\ log(1/\ delta)} {(1 - \ gamma)^5 \,\ epsilon^2 \ zeta^2} \ right)$,其中$ \ zeta $是与问题相关的slater常数,其特征是可行区域的大小。最后,我们证明了严格的可行性设置的匹配较低限制,因此获得了折扣CMDP的第一个最小值最佳界限。我们的结果表明,在允许违反小小的约束时,学习CMDP与MDP一样容易,但是当我们要求零约束违规时,本质上更加困难。
translated by 谷歌翻译
自然语言处理(NLP)已成为当前人工智能繁荣中的主要应用领域之一。转移学习已经启用了大量深入学习的神经网络,接受了语言建模任务,以大大提高了所有语言任务的性能。有趣的是,当模型培训使用包含软件代码的数据培训时,它们在从自然语言规范中生成功能计算机代码时展示了显着的能力。我们认为这是一种难题,用于神经模型为生成词组结构语法提供了一种替代理论,以说明语言有效。由于编程语言的语法由短语结构语法决定,因此成功的神经模型显然是对编程语言的理论基础的理论基础,以及通过扩展,自然语言来实现。我们认为语言模型的术语模型是误导性的,因为深度学习模型不是语言的理论模型,并提出采用语料库模型,这更好地反映了模型的成因和内容。
translated by 谷歌翻译
代表学习呈现在深入学习的经验成功的核心,以处理维度的诅咒。然而,由于i),表现力(RL)的钢筋学习(RL)尚未充分利用卓越的能力,表现力和易疏忽之间的权衡;二世),探索与代表学习之间的耦合。在本文中,我们首先揭示了在随机控制模型中的一些噪声假设下,我们可以免费获得其相应的马尔可夫过渡操作员的线性谱特征。基于该观察,我们提出了嵌入(Spede)的谱动力学嵌入(SPEDE),这将通过利用噪声结构来完成对代表学习的乐观探索。我们提供对Speded的严格理论分析,并展示了几种基准上现有最先进的实证算法的实际卓越性能。
translated by 谷歌翻译
成对比较矩阵越来越多地用于某些对丢失的设置中。但是,对于类似的不完整数据集,不存在一些不一致的指标,并且没有合理的测量具有相关的阈值。本文推出了Saaty提出的可接受不一致的拇指的着名拇指规则,以不完整的成对比较矩阵。扩展基于选择缺失元素,使得不完整矩阵的最大特征值最小化。因此,不能采用随机索引的良好成熟的值:发现随机矩阵的不一致是矩阵大小的函数和缺失元素的数量,在后一变量的情况下具有几乎线性的依赖性。我们的结果可以直接内置于决策软件中,并由从业者使用作为接受或拒绝不完整的成对比较矩阵的统计标准。
translated by 谷歌翻译