这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
We consider a semi-supervised $k$-clustering problem where information is available on whether pairs of objects are in the same or in different clusters. This information is either available with certainty or with a limited level of confidence. We introduce the PCCC algorithm, which iteratively assigns objects to clusters while accounting for the information provided on the pairs of objects. Our algorithm can include relationships as hard constraints that are guaranteed to be satisfied or as soft constraints that can be violated subject to a penalty. This flexibility distinguishes our algorithm from the state-of-the-art in which all pairwise constraints are either considered hard, or all are considered soft. Unlike existing algorithms, our algorithm scales to large-scale instances with up to 60,000 objects, 100 clusters, and millions of cannot-link constraints (which are the most challenging constraints to incorporate). We compare the PCCC algorithm with state-of-the-art approaches in an extensive computational study. Even though the PCCC algorithm is more general than the state-of-the-art approaches in its applicability, it outperforms the state-of-the-art approaches on instances with all hard constraints or all soft constraints both in terms of running time and various metrics of solution quality. The source code of the PCCC algorithm is publicly available on GitHub.
translated by 谷歌翻译
We explore the ability of overparameterized shallow ReLU neural networks to learn Lipschitz, non-differentiable, bounded functions with additive noise when trained by Gradient Descent (GD). To avoid the problem that in the presence of noise, neural networks trained to nearly zero training error are inconsistent in this class, we focus on the early-stopped GD which allows us to show consistency and optimal rates. In particular, we explore this problem from the viewpoint of the Neural Tangent Kernel (NTK) approximation of a GD-trained finite-width neural network. We show that whenever some early stopping rule is guaranteed to give an optimal rate (of excess risk) on the Hilbert space of the kernel induced by the ReLU activation function, the same rule can be used to achieve minimax optimal rate for learning on the class of considered Lipschitz functions by neural networks. We discuss several data-free and data-dependent practically appealing stopping rules that yield optimal rates.
translated by 谷歌翻译
自主赛车是一项研究领域,由于它将自动驾驶算法推向极限,并作为一般自主驾驶的催化剂。对于规模的自主赛车平台,计算约束和复杂性通常会限制模型预测控制(MPC)的使用。结果,几何控制器是最常部署的控制器。它们在实施和操作简单性的同时被证明是性能。然而,他们固有地缺乏模型动力学的结合,因此将赛车限制在可以忽略轮胎滑动的速度域。本文介绍了基于模型和加速度的追求(MAP)基于高性能模型的轨迹跟踪算法,该算法在利用轮胎动力学的同时保留了几何方法的简单性。与最先进的几何控制器相比,所提出的算法允许在前所未有的速度上准确跟踪轨迹。在横向跟踪误差方面,在实验上验证了地图控制器,并胜过参考几何控制器四倍,以高达11m/s的测试速度产生0.055m的跟踪误差。
translated by 谷歌翻译
学习在未知环境中安全导航是监视和救援操作中使用的自动无人机的重要任务。近年来,已经提出了许多基于学习的同时定位和映射(SLAM)系统,这些系统依靠深神经网络(DNN)(DNNS)提出了用于传统功能描述符表现不佳的应用。但是,这种基于学习的SLAM系统依靠DNN功能编码在典型的深度学习环境中训练有素的离线训练。这使得它们不太适合在训练中未见的环境中部署的无人机,在训练中,持续适应至关重要。在本文中,我们提出了一种新的方法,可以通过调节低复杂性词典学习和稀疏编码(DLSC)管道,并使用新提出的二次贝叶斯惊喜(QBS)因素调节,以学习在未知环境中即时猛烈抨击。我们通过在充满挑战的仓库场景中通过无人机收集的数据来实验验证我们的方法,在这种情况下,大量模棱两可的场景使视觉上的歧义很难。
translated by 谷歌翻译
这项工作是对对使用Dino训练的自我监督视觉变压器的对抗性攻击的鲁棒性进行的首次分析。首先,我们评估通过自学学历的特征是否比受到监督学习中出现的人更强大。然后,我们介绍在潜在空间中攻击的属性。最后,我们评估了三种著名的防御策略是否可以通过微调分类头来提高下游任务中的对抗性鲁棒性,即使考虑到有限的计算资源,也可以提供鲁棒性。这些防御策略是:对抗性训练,合奏对抗训练和专业网络的合奏。
translated by 谷歌翻译
团体公平指标是评估基于预测决策系统公平性的既定方法。但是,这些指标仍然与哲学理论相关,其道德含义通常不清楚。我们提出了一个一般框架,用于分析基于分配正义理论的决策系统的公平性,包括与不同规范立场相对应的不同既定的“正义模式”。我们表明,最受欢迎的集体公平度量指标可以解释为我们方法的特殊情况。因此,我们为群体公平指标提供了一个统一和解释的框架,该框架揭示了与它们相关的规范性选择,并允许理解其道德实质。同时,我们提供了可能公平指标的延伸空间,而不是公平ML文献中当前讨论的指标。我们的框架还允许克服几个群体公平指标的局限性,这些指标在文献中受到批评,最著名的是(1)它们是基于平等的,即他们要求群体之间的某种形式的平等性,这有时可能有害于边缘化。组,(2)他们仅比较跨群体的决策,但对这些群体的后果没有比较,并且(3)分配正义文献的全部广度不足。
translated by 谷歌翻译
在基于预测的决策系统中,不同的观点可能是矛盾的:决策者的短期业务目标通常与决策主体的愿望相抵触。平衡这两个观点是一个价值问题。我们提供一个框架,使这些具有价值的选择清晰可见。为此,我们假设我们获得了一个训练有素的模型,并希望找到平衡决策者和决策主体观点的决策规则。我们提供了一种形式化这两种观点的方法,即评估决策者的效用和对决策主体的公平性。在这两种情况下,这个想法都是从决策者和决策主题中引起的价值观,然后将其变成可衡量的东西。为了进行公平评估,我们以基于福利的公平性的文献为基础,并询问公用事业(或福利)的公平分布是什么样的。在此步骤中,我们以分配正义的著名理论为基础。这使我们能够得出一个公平分数,然后将其与许多不同决策规则的决策者实用程序进行比较。这样,我们提供了一种平衡决策者的实用性的方法,以及对基于预测的决策系统的决策主体的公平性。
translated by 谷歌翻译
我们介绍了基于优化的理论,描述了在视觉皮质中的经验观察到的尖刺皮质组合,其配备有尖峰定时依赖性塑性(STDP)学习。使用我们的方法,我们为基于事件的相机构建了一类完全连接的,基于卷积和动作的特征描述符,即我们分别评估N-Mnist,挑战Cifar10-DVS以及IBM DVS128手势数据集。与传统的最先进的事件的特征描述符相比,我们报告了显着的准确性改进(CIFAR10-DVS上的+ 8%)。与最先进的STDP的系统(在N-MNIST上+ 10%+ 10%+ 10%,在IBM DVS128手势上举报的准确性提高了大量改进)。除了神经形态边缘装置的超低功率学习之外,我们的作品还有助于铺平朝向基于生物学 - 基于的皮质视觉理论的方式。
translated by 谷歌翻译
在许多应用和研究领域,时间序列的概率预测是重要的事情。为了从概率预测中得出结论,我们必须确保用于近似真实预测分布的模型类足够表达。然而,模型本身的特征,例如其不确定性或特征结果关系并不重要。本文提出了自回旋转换模型(ATM),该模型类是受各种研究方向启发的模型类别,使用半参数分布假设和可解释的模型规范结合表达性分布预测。我们在理论上和通过几个模拟和真实的预测数据集上通过经验评估来证明ATM的属性。
translated by 谷歌翻译