安全勘探是在安全关键系统中应用强化学习(RL)的关键。现有的安全勘探方法在规律的假设下保证安全,并且很难将它们应用于大规模的真正问题。我们提出了一种新颖的算法,SPO-LF,它们优化代理的策略,同时学习通过传感器和环境奖励/安全使用的本地可用功能与使用广义线性函数近似之间的关系。我们提供了对其安全性和最优性的理论保障。我们通过实验表明,我们的算法在样本复杂性和计算成本方面更有效,2)更适用于比以前的安全RL方法具有理论保证的方法,以及3)与现有的相当相当的样本和更安全。具有安全限制的高级深度RL方法。
translated by 谷歌翻译
对于监督分类问题,本文考虑通过使用观察到的协变量来估算查询的标签概率。众所周知的非参数内核更顺畅,并在查询周围的球上占据平均值的$ k $-n $-nnn)估算器,但特别是对于球的大半径偏向而渐近偏差。消除这种偏差,本地多项式回归(LPOR)和Multiscale $ K $ -NN(MS-$ K $ -NN)通过围绕查询周围的本地回归来学习偏置术语并将其推断给查询本身。然而,他们的理论最优性已经显示为无限数量的训练样本的限制。为了纠正具有较少观察的渐近偏差,本文提出了一种局部径向回归(LRR)及其逻辑回归变量,称为局部径向逻辑回归(LRLR),通过结合LPOS和MS-$ K $ -NN的优点。这个想法很简单:通过将径向距离作为解释变量将径向距离施加到观察标签的本地回归,然后将估计的标记概率推断为零距离。我们的数值实验包括日常股票指数的现实世界数据集,证明了LRLR胜过LPOR和MS $ K $ -NN。
translated by 谷歌翻译
本文讨论了概括间隙,泛化差距与经验误差之间的差异,用于过度分子化模型(例如,神经网络)。我们首先表明,在定义广泛应用的信息标准定义广泛适用的信息标准的关键概念,即使在常见的情况下,概括间隙也表征了概括间隙,其中不能应用传统理论。我们接下来提出了计算上有效的函数方差的近似,函数方差的Langevin近似〜(Langevin FV)。该方法利用了一个平方损失功能的第1阶但不是2nd阶梯度;因此,可以通过基于梯度的优化算法始终如一地计算它。我们在数值上展示了Langevin FV,估计了过分鉴定的线性回归和非线性神经网络模型的泛化差距。
translated by 谷歌翻译
我们研究了估算平面上的逆函数的极小风险,同时保持估计也是可逆的。从数据和利用可逆估计的学习可靠性在许多域中使用,例如统计,经济学和机器学习。虽然可逆估计的一致性和普遍性得到了很好的调查,但这些方法的效率仍在开发中。在这项研究中,我们研究了在$ 2 $ 2的平面上估算可逆的双唇尖端函数的最低风险。我们首先介绍一个逆价$ l ^ 2 $ -RISK以评估保留可逆性的估算器。然后,我们通过利用使用级别集的可逆函数的表示来导出最小的逆风险的更低和上限。为了获得一个上限,我们开发渐近的估计器几乎无可争互变,其风险达到了衍生的最低限度达到对数因素的速度。导出的最小值率对应于不可逆转的Bi-LipsChitz功能的速率,其拒绝了可逆性是否提高了最小值率的预期,类似于其他形状约束。
translated by 谷歌翻译