This paper presents a construction of a proper and stable labelled sample compression scheme of size $O(\VCD^2)$ for any finite concept class, where $\VCD$ denotes the Vapnik-Chervonenkis Dimension. The construction is based on a well-known model of machine teaching, referred to as recursive teaching dimension. This substantially improves on the currently best known bound on the size of sample compression schemes (due to Moran and Yehudayoff), which is exponential in $\VCD$. The long-standing open question whether the smallest size of a sample compression scheme is in $O(\VCD)$ remains unresolved, but our results show that research on machine teaching is a promising avenue for the study of this open problem. As further evidence of the strong connections between machine teaching and sample compression, we prove that the model of no-clash teaching, introduced by Kirkpatrick et al., can be used to define a non-trivial lower bound on the size of stable sample compression schemes.
translated by 谷歌翻译
在这项工作中,我们调查了Steinke和Zakynthinou(2020)的“条件互信息”(CMI)框架的表现力,以及使用它来提供统一框架,用于在可实现的环境中证明泛化界限。我们首先证明可以使用该框架来表达任何用于从一类界限VC维度输出假设的任何学习算法的非琐碎(但是次优)界限。我们证明了CMI框架在用于学习半个空间的预期风险上产生最佳限制。该结果是我们的一般结果的应用,显示稳定的压缩方案Bousquet al。 (2020)尺寸$ k $有统一有限的命令$ o(k)$。我们进一步表明,适当学习VC类的固有限制与恒定的CMI存在适当的学习者的存在,并且它意味着对Steinke和Zakynthinou(2020)的开放问题的负面分辨率。我们进一步研究了价值最低限度(ERMS)的CMI的级别$ H $,并表明,如果才能使用有界CMI输出所有一致的分类器(版本空间),只有在$ H $具有有界的星号(Hanneke和杨(2015)))。此外,我们证明了一般性的减少,表明“休假”分析通过CMI框架表示。作为推论,我们研究了Haussler等人提出的一包图算法的CMI。 (1994)。更一般地说,我们表明CMI框架是通用的,因为对于每一项一致的算法和数据分布,当且仅当其评估的CMI具有样品的载位增长时,预期的风险就会消失。
translated by 谷歌翻译
我们检查机器学习中出现的组合概念与立方/单纯几何形状中的拓扑概念之间的连接。这些连接使得从几何形状导出到机器学习的结果。我们的第一个主要结果是基于Tracy Hall(2004)的几何结构,其局部炮击的交叉多容院不能延伸。我们使用它来得出最大类别的VC尺寸3,没有角落。从过去11年来,这反驳了在机器学习中的几个工作。特别地,它意味着最佳类别的最佳未标记的样本压缩方案的所有先前结构都是错误的。在积极的一面,我们为最大类提供了一个未标记的样品压缩方案的新建。我们打开我们的未标记的样品压缩方案是否延伸到充足(A.K.A.不平衡或极值)课程,这代表了最大类的自然和深远的概括。在解决这个问题方面,我们就关联立方体复合物的1骷髅的独特宿前方向提供了几何特征。
translated by 谷歌翻译
Boosting是一种著名的机器学习方法,它基于将弱和适度不准确假设与强烈而准确的假设相结合的想法。我们研究了弱假设属于界限能力类别的假设。这个假设的灵感来自共同的惯例,即虚弱的假设是“易于学习的类别”中的“人数规则”。 (Schapire和Freund〜 '12,Shalev-Shwartz和Ben-David '14。)正式,我们假设弱假设类别具有有界的VC维度。我们关注两个主要问题:(i)甲骨文的复杂性:产生准确的假设需要多少个弱假设?我们设计了一种新颖的增强算法,并证明它绕过了由Freund和Schapire('95,'12)的经典下限。虽然下限显示$ \ omega({1}/{\ gamma^2})$弱假设有时是必要的,而有时则需要使用$ \ gamma $ -margin,但我们的新方法仅需要$ \ tilde {o}({1})({1}) /{\ gamma})$弱假设,前提是它们属于一类有界的VC维度。与以前的增强算法以多数票汇总了弱假设的算法不同,新的增强算法使用了更复杂(“更深”)的聚合规则。我们通过表明复杂的聚合规则实际上是规避上述下限是必要的,从而补充了这一结果。 (ii)表现力:通过提高有限的VC类的弱假设可以学习哪些任务?可以学到“遥远”的复杂概念吗?为了回答第一个问题,我们{介绍组合几何参数,这些参数捕获增强的表现力。}作为推论,我们为认真的班级的第二个问题提供了肯定的答案,包括半空间和决策树桩。一路上,我们建立并利用差异理论的联系。
translated by 谷歌翻译
我们研究了Agarwal等人介绍的可计算PAC(CPAC)学习。(2020)。首先,我们考虑了发现正确和不当CPAC学习的特征的主要开放问题。我们给出了强大CPAC学习密切相关的概念的特征,并为Agarwal等人提出的柯尔特开放问题提供了负面答案。(2021)所有可决定的VC类是否都是不适当的CPAC。其次,我们考虑(可计算)PAC可学习性的不可证明性。我们给出了一个简单的一般论点来表现出这种方法,并开始研究可学习性的算术复杂性。我们简要讨论了Ben-David等人的不可证明性结果的关系。(2019年),这激发了Agarwal等人的工作。
translated by 谷歌翻译
A classical result in learning theory shows the equivalence of PAC learnability of binary hypothesis classes and the finiteness of VC dimension. Extending this to the multiclass setting was an open problem, which was settled in a recent breakthrough result characterizing multiclass PAC learnability via the DS dimension introduced earlier by Daniely and Shalev-Shwartz. In this work we consider list PAC learning where the goal is to output a list of $k$ predictions. List learning algorithms have been developed in several settings before and indeed, list learning played an important role in the recent characterization of multiclass learnability. In this work we ask: when is it possible to $k$-list learn a hypothesis class? We completely characterize $k$-list learnability in terms of a generalization of DS dimension that we call the $k$-DS dimension. Generalizing the recent characterization of multiclass learnability, we show that a hypothesis class is $k$-list learnable if and only if the $k$-DS dimension is finite.
translated by 谷歌翻译
解决Littlestone和Warmuth的猜想,我们展示了任何VC-Dimension $ D $的概念类别具有尺寸$ D $的样本压缩方案。
translated by 谷歌翻译
我们考虑在对抗环境中的强大学习模型。学习者获得未腐败的培训数据,并访问可能受到测试期间对手影响的可能腐败。学习者的目标是建立一个强大的分类器,该分类器将在未来的对抗示例中进行测试。每个输入的对手仅限于$ k $可能的损坏。我们将学习者 - 对手互动建模为零和游戏。该模型与Schmidt等人的对抗示例模型密切相关。 (2018); Madry等。 (2017)。我们的主要结果包括对二进制和多类分类的概括界限,以及实现的情况(回归)。对于二元分类设置,我们都拧紧Feige等人的概括。 (2015年),也能够处理无限假设类别。样本复杂度从$ o(\ frac {1} {\ epsilon^4} \ log(\ frac {| h |} {\ delta})$ to $ o \ big(\ frac {1} { epsilon^2}(kvc(h)\ log^{\ frac {3} {2}+\ alpha}(kvc(h))+\ log(\ frac {1} {\ delta} {\ delta})\ big)\ big)\ big)$ for任何$ \ alpha> 0 $。此外,我们将算法和概括从二进制限制到多类和真实价值的案例。一路上,我们获得了脂肪震惊的尺寸和$ k $ fold的脂肪的尺寸和Rademacher复杂性的结果最大值的功能类别;这些可能具有独立的兴趣。对于二进制分类,Feige等人(2015年)使用遗憾的最小化算法和Erm Oracle作为黑匣子;我们适应了多类和回归设置。该算法为我们提供了给定培训样本中的球员的近乎最佳政策。
translated by 谷歌翻译
Recently, Robey et al. propose a notion of probabilistic robustness, which, at a high-level, requires a classifier to be robust to most but not all perturbations. They show that for certain hypothesis classes where proper learning under worst-case robustness is \textit{not} possible, proper learning under probabilistic robustness \textit{is} possible with sample complexity exponentially smaller than in the worst-case robustness setting. This motivates the question of whether proper learning under probabilistic robustness is always possible. In this paper, we show that this is \textit{not} the case. We exhibit examples of hypothesis classes $\mathcal{H}$ with finite VC dimension that are \textit{not} probabilistically robustly PAC learnable with \textit{any} proper learning rule. However, if we compare the output of the learner to the best hypothesis for a slightly \textit{stronger} level of probabilistic robustness, we show that not only is proper learning \textit{always} possible, but it is possible via empirical risk minimization.
translated by 谷歌翻译
我们考虑在可实现的环境中进行交互式学习,并开发一般框架,以处理从最佳ARM识别到主动分类的问题。我们开始调查,即观察到可怕算法\ emph {无法实现可实现的设置中最佳最佳状态。因此,我们设计了新的计算有效的算法,可实现最可实现的设置,该算法与对数因子的最小限制相匹配,并且是通用的,适用于包括内核方法的各种功能类,H {\“O}偏置函数,以及凸起功能。我们的算法的样本复杂性可以在众所周知的数量中量化,如延长的教学尺寸和干草堆维度。然而,与直接基于这些组合量的算法不同,我们的算法是计算效率的。实现计算效率,我们的算法使用Monte Carlo“命令运行”算法来从版本空间中的样本,而不是明确地维护版本空间。我们的方法有两个关键优势。首先,简单,由两个统一,贪婪的算法组成。第二,我们的算法具有能够无缝地利用经常可用和在实践中有用的知识。此外为了我们的新理论结果,我们经验证明我们的算法与高斯过程UCB方法具有竞争力。
translated by 谷歌翻译
经典的算法adaboost允许转换一个弱学习者,这是一种算法,它产生的假设比机会略好,成为一个强大的学习者,在获得足够的培训数据时,任意高精度。我们提出了一种新的算法,该算法从弱学习者中构建了一个强大的学习者,但比Adaboost和所有其他弱者到强大的学习者使用训练数据少,以实现相同的概括界限。样本复杂性下限表明我们的新算法使用最小可能的训练数据,因此是最佳的。因此,这项工作解决了从弱学习者中构建强大学习者的经典问题的样本复杂性。
translated by 谷歌翻译
我们提出了两个关于量子计算机精确学习的新结果。首先,我们展示了如何从$ o(k ^ {1.5}(\ log k)^ 2)$统一量子示例的$ o(k ^ {1.5}(\ log k)^ 2)的$ k $ -fourier-sparse $ n $ -fourier-sparse $ n $ k $ -fourier-sparse $ n $ couber boolean函数。这改善了$ \ widetilde {\ theta}(kn)$统一的randuly \ emph {classical}示例(haviv和regev,ccc'15)。此外,我们提供了提高我们的$ \ widetilde {o}(k ^ {1.5})美元的可能方向,通过证明k $-$ -fourier-稀疏的布尔函数的改进,通过提高Chang的Lemma。其次,如果可以使用$ q $量子会员查询可以完全学习概念类$ \ mathcal {c} $,则也可以使用$ o o \ left(\ frac {q ^ 2} {\ logq} \ log | \ mathcal {c} | \右)$ \ emph {classical}会员查询。这通过$ \ log q $ -factor来改善最佳的仿真结果(Servedio和Gortler,Sicomp'04)。
translated by 谷歌翻译
我们为在测试时间内对对抗性示例进行了学习预测的问题,为学习预测的问题提供了最小的最佳学习者。有趣的是,我们发现这需要新的算法思想和方法来实现对抗性的学习。特别是,我们从强烈的负面意义上表明,蒙塔瑟(Montasser),Hanneke和Srebro(2019)提出的强大学习者的次级临时性以及我们确定为本地学习者的更广泛的学习者。我们的结果是通过通过关键技术贡献采用全球视角来实现的:可能具有独立利益的全球单包含图,它概括了由于Haussler,Littlestone和Warminguth引起的经典单包含图(1994年)(1994年) )。最后,作为副产品,我们确定了一个定性和定量表征哪些类别的预测因子$ \ mathcal {h} $的维度。由于Montasser等人,这解决了一个空旷的问题。 (2019年),并在固定稳健学习的样品复杂性上,在已建立的上限和下限之间结束了一个(潜在的)无限差距。
translated by 谷歌翻译
We study the generalization capacity of group convolutional neural networks. We identify precise estimates for the VC dimensions of simple sets of group convolutional neural networks. In particular, we find that for infinite groups and appropriately chosen convolutional kernels, already two-parameter families of convolutional neural networks have an infinite VC dimension, despite being invariant to the action of an infinite group.
translated by 谷歌翻译
学习曲线将学习算法的预期误差绘制为标记输入样本数量的函数。它们被机器学习实践者广泛使用,以衡量算法的性能,但是经典的PAC学习理论无法解释其行为。在本文中,我们介绍了一种称为VCL维度的新组合表征,该表征改进并完善了Bousquet等人的最新结果。 (2021)。我们的表征通过提供细粒度的边界来展示学习曲线的结构,并表明对于有限VCL的类,可以将衰减的速率分解为仅取决于假设类别和指数成分的线性组件,该成分是指数的成分。还取决于目标分布。特别是,VCL维度的细微差别意味着比Bousquet等人的边界更强大的下限。 (2021年),比经典的“无免费午餐”下界强。 VCL表征解决了Antos and Lugosi(1998)研究的一个开放问题,他们询问在哪些情况下存在这种下限。作为推论,我们在$ \ mathbb {r}^d $中恢复了其下限,并以原则性的方式也适用于其他情况。最后,为了对我们的工作以及与传统PAC学习界的比较提供另一个观点,我们还以一种更接近PAC环境的语言展示了结果的替代表述。
translated by 谷歌翻译
我们研究了三个看似不同的组合结构之间的联系 - 在统计和概率理论中的“统一”括号,“在线和分布式学习理论”和“组合MacBeath地区”,或者在离散和计算几何中的MNET。我们表明这三个概念是单一组合物业的表现,可以在沿着VAPNIK-Chervonenkis型理论的统一框架中表达的统一收敛性。这些新连接有助于我们带来来自离散和计算几何的工具,以证明这些对象的改进界限。我们改进的界限有助于获得半个空间的分布式学习的最佳算法,一种改进的分布式凸起脱节问题,以及对大类半代数阈值函数的平滑对手的在线算法的改进的后悔界限。
translated by 谷歌翻译
可实现和不可知性的可读性的等价性是学习理论的基本现象。与PAC学习和回归等古典设置范围的变种,近期趋势,如对冲强劲和私人学习,我们仍然缺乏统一理论;等同性的传统证据往往是不同的,并且依赖于强大的模型特异性假设,如统一的收敛和样本压缩。在这项工作中,我们给出了第一个独立的框架,解释了可实现和不可知性的可读性的等价性:三行黑箱减少简化,统一,并在各种各样的环境中扩展了我们的理解。这包括没有已知的学报的模型,例如学习任意分布假设或一般损失,以及许多其他流行的设置,例如强大的学习,部分学习,公平学习和统计查询模型。更一般地,我们认为可实现和不可知的学习的等价性实际上是我们调用属性概括的更广泛现象的特殊情况:可以满足有限的学习算法(例如\噪声公差,隐私,稳定性)的任何理想性质假设类(可能在某些变化中)延伸到任何学习的假设类。
translated by 谷歌翻译
我们研究了顺序预测和在线minimax遗憾的问题,并在一般损失函数下具有随机生成的特征。我们介绍了一个预期的最坏情况下的概念minimax遗憾,它概括并涵盖了先前已知的minimax遗憾。对于这种极匹马的遗憾,我们通过随机全局顺序覆盖的新颖概念建立了紧密的上限。我们表明,对于VC-Dimension $ \ Mathsf {Vc} $和$ I.I.D. $生成的长度$ t $的假设类别,随机全局顺序覆盖的基数可以在上限上限制高概率(WHP) e^{o(\ mathsf {vc} \ cdot \ log^2 t)} $。然后,我们通过引入一种称为Star-Littlestone维度的新复杂度度量来改善这种束缚,并显示与Star-Littlestone dimension $ \ Mathsf {Slsf {sl} $类别的类别允许订单的随机全局顺序覆盖$ e^{o(\ Mathsf) {sl} \ cdot \ log t)} $。我们进一步建立了具有有限脂肪的数字的真实有价值类的上限。最后,通过应用固定设计的Minimax遗憾的信息理论工具,我们为预期的最坏情况下的Minimax遗憾提供了下限。我们通过在预期的最坏情况下对对数损失和一般可混合损失的遗憾建立紧密的界限来证明我们的方法的有效性。
translated by 谷歌翻译
我们正式化并研究通过嵌入设计凸替代损失函数的自然方法,例如分类,排名或结构化预测等问题。在这种方法中,一个人将每一个有限的预测(例如排名)嵌入$ r^d $中的一个点,将原始损失值分配给这些要点,并以某种方式“凸出”损失以获得替代物。我们在这种方法和多面体(分段线性凸)的替代损失之间建立了牢固的联系:每个离散损失都被一些多面体损失嵌入,并且每个多面体损失都嵌入了一些离散的损失。此外,嵌入会产生一致的链接功能以及线性替代遗憾界限。正如我们用几个示例所说明的那样,我们的结果具有建设性。特别是,我们的框架为文献中各种多面体替代物以及不一致的替代物提供了简洁的证据或不一致的证据,它进一步揭示了这些代理人一致的离散损失。我们继续展示嵌入的其他结构,例如嵌入和匹配贝叶斯风险的等效性以及各种非算术概念的等效性。使用这些结果,我们确定与多面体替代物一起工作时,间接启发是一致性的必要条件也足够了。
translated by 谷歌翻译
The one-inclusion graph algorithm of Haussler, Littlestone, and Warmuth achieves an optimal in-expectation risk bound in the standard PAC classification setup. In one of the first COLT open problems, Warmuth conjectured that this prediction strategy always implies an optimal high probability bound on the risk, and hence is also an optimal PAC algorithm. We refute this conjecture in the strongest sense: for any practically interesting Vapnik-Chervonenkis class, we provide an in-expectation optimal one-inclusion graph algorithm whose high probability risk bound cannot go beyond that implied by Markov's inequality. Our construction of these poorly performing one-inclusion graph algorithms uses Varshamov-Tenengolts error correcting codes. Our negative result has several implications. First, it shows that the same poor high-probability performance is inherited by several recent prediction strategies based on generalizations of the one-inclusion graph algorithm. Second, our analysis shows yet another statistical problem that enjoys an estimator that is provably optimal in expectation via a leave-one-out argument, but fails in the high-probability regime. This discrepancy occurs despite the boundedness of the binary loss for which arguments based on concentration inequalities often provide sharp high probability risk bounds.
translated by 谷歌翻译