Deep learning models that leverage large datasets are often the state of the art for modelling molecular properties. When the datasets are smaller (< 2000 molecules), it is not clear that deep learning approaches are the right modelling tool. In this work we perform an extensive study of the calibration and generalizability of probabilistic machine learning models on small chemical datasets. Using different molecular representations and models, we analyse the quality of their predictions and uncertainties in a variety of tasks (binary, regression) and datasets. We also introduce two simulated experiments that evaluate their performance: (1) Bayesian optimization guided molecular design, (2) inference on out-of-distribution data via ablated cluster splits. We offer practical insights into model and feature choice for modelling small chemical datasets, a common scenario in new chemical experiments. We have packaged our analysis into the DIONYSUS repository, which is open sourced to aid in reproducibility and extension to new datasets.
translated by 谷歌翻译
我们先前的实验表明,人类和机器似乎采用了不同的方法来歧视说话者歧视,尤其是在说话风格可变性的情况下。实验检查了阅读与对话演讲。听众专注于特定于说话者的特质,同时“一起告诉说话者”,以及“告诉说话者分开”时共享声学空间的相对距离。但是,无论目标或非目标试验如何,自动扬声器验证(ASV)系统使用相同的损失函数。为了在风格变异性的存在下提高ASV性能,从人类感知中学到的见解被用来设计一种新的训练损失功能,我们称为“ CLLRCE损失”。 CLLRCE损失既使用说话者特异性的特质,又使用扬声器之间的相对声学距离来训练ASV系统。当使用UCLA扬声器可变性数据库时,在X-Vector和条件设置中,CLLCE损失使EER显着相对改善1-66%,而MindCF分别与1-31%和1-56%相比,相比之下X矢量基线。使用涉及不同的对话语音任务的SITW评估任务,拟议的损失与自我发项式调节结合,导致EER的显着相对改善2-5%,而MindCF则比基线高6-12%。在SITW案例中,绩效的改善仅与调理保持一致。
translated by 谷歌翻译
我们提出了一种提取说话者嵌入的方法,这些嵌入者对文本独立的说话者验证中的口语风格变化很强。通常,嵌入提取的扬声器包括训练DNN进行扬声器分类以及使用瓶颈功能作为扬声器表示。这样的网络具有一个合并层,可以通过在所有话语框架上计算统计数据,以相等的权重来转换框架级别为话语级特征。但是,自动锻炼的嵌入执行加权池,使其重量与在扬声器分类任务中框架的重要性相对应。熵可以捕获由于说话样式变化而导致的声学变化。因此,提出了一个基于熵的变量帧速率向量作为自我发项层的外部条件向量,以向网络提供可以解决样式效应的信息。这项工作探讨了五种不同的调理方法。最好的调理方法,与门控的串联,在12/23任务中为X-Vector基线提供了统计学上的显着改进,并且在使用UCLA扬声器可变性数据库时,与11/23任务中的基线相同。在9/23任务中,它也明显胜过自我注意力,而在1/23的任务中也更糟。该方法还显示了SITW的多扬声器方案的显着改善。
translated by 谷歌翻译
在过去的几十年中,风产能的增长表明,风能可以促进世界许多地区的能源过渡。对于模型的高度可变和复杂,对风能的时空变化和相关的不确定性的定量与能源计划者高度相关。机器学习已成为执行风速和功率预测的流行工具。但是,现有方法有几个局限性。其中包括(i)在风速数据中不足以考虑时空相关性,(ii)缺乏量化风速预测不确定性及其对风能估算的不确定性的现有方法,以及(iii)焦点在少于小时的频率上。为了克服这些局限性,我们引入了一个框架,以从不规则分布的风速测量值中的常规网格上重建时空场。将数据分解为时间引用的基础函数及其相应的空间分布系数后,后者是使用极端学习机对空间建模的。然后,对模型和预测不确定性的估计及其在风速转化为风能后的传播的估计值,然后将提供对数据分布模式的任何假设。该方法适用于研究瑞士100米轮毂高度的250 x 250平方米的小时风能潜力,为该国提供了其类型的第一个数据集。潜在的风力发电与风力涡轮机安装的可用区域相结合,以估算瑞士风力发电的技术潜力。此处介绍的风力估算代表了计划人员的重要意见,以支持风力发电增加的未来能源系统的设计。
translated by 谷歌翻译