本文介绍了STC有限公司的描述,该系统提交给NIST 2021扬声器识别评估,用于固定和开放的培训条件。这些系统由许多不同的子系统组成,基于使用深神经网络作为特征提取器。在NIST 2021 SRE挑战期间,我们专注于培训最先进的深部扬声器嵌入式提取器,如Contive角度裕度的损耗功能。此外,通过自动语音识别中的Wav2Vec 2.0特征的最近成功的启发,我们探讨了这种方法对提交的扬声器验证的有效性。根据我们的观察,预先训练的大wave2vec 2.0模型的微调为开放式条件提供了最佳的开展系统。我们对固定条件的WAV2VEC 2.0提取器的实验表明,与对比预测编码损失的无监督自回归预测将打开从原始语音信号训练强大的变压器的提取器。对于视频模型,我们通过RetinaFace面部探测器和深签名脸部嵌入式提取器开发了我们的最佳解决方案,培训了大面孔图像数据集。主要系统的最终结果是通过在分数水平上的不同配置融合的不同配置而获得,然后进行评分校准。
translated by 谷歌翻译
We present a novel dataset named as HPointLoc, specially designed for exploring capabilities of visual place recognition in indoor environment and loop detection in simultaneous localization and mapping. The loop detection sub-task is especially relevant when a robot with an on-board RGB-D camera can drive past the same place (``Point") at different angles. The dataset is based on the popular Habitat simulator, in which it is possible to generate photorealistic indoor scenes using both own sensor data and open datasets, such as Matterport3D. To study the main stages of solving the place recognition problem on the HPointLoc dataset, we proposed a new modular approach named as PNTR. It first performs an image retrieval with the Patch-NetVLAD method, then extracts keypoints and matches them using R2D2, LoFTR or SuperPoint with SuperGlue, and finally performs a camera pose optimization step with TEASER++. Such a solution to the place recognition problem has not been previously studied in existing publications. The PNTR approach has shown the best quality metrics on the HPointLoc dataset and has a high potential for real use in localization systems for unmanned vehicles. The proposed dataset and framework are publicly available: https://github.com/metra4ok/HPointLoc.
translated by 谷歌翻译
The paper discusses the improvement of the accuracy of an inertial navigation system created on the basis of MEMS sensors using machine learning (ML) methods. As input data for the classifier, we used infor-mation obtained from a developed laboratory setup with MEMS sensors on a sealed platform with the ability to adjust its tilt angles. To assess the effectiveness of the models, test curves were constructed with different values of the parameters of these models for each core in the case of a linear, polynomial radial basis function. The inverse regularization parameter was used as a parameter. The proposed algorithm based on MO has demonstrated its ability to correctly classify in the presence of noise typical for MEMS sensors, where good classification results were obtained when choosing the optimal values of hyperpa-rameters.
translated by 谷歌翻译
检测几乎重复的图像是照片共享Web应用程序的内容生态系统的基础。但是,当涉及包含数十亿张图像的网络尺度图像语料库时,此类任务是具有挑战性的。在本文中,我们提出了一个有效的系统,用于检测80亿张图像中的近重复图像。我们的系统包括三个阶段:候选人生成,候选人选择和聚类。我们还证明,该系统可用于大大提高许多现实应用程序的建议和搜索结果的质量。此外,我们还包括六年来系统的发展,为新系统如何设计以适应有机内容的增长以及最新技术的方式提供体验和课程。最后,我们正在释放本文介绍的约53,000对图像的人体标记的数据集。
translated by 谷歌翻译
矩阵的特征分类是基于基质分解的概率模型中的中心过程,例如主成分分析和主题模型。基于有限样本估计的这种分解的不确定性对于使用此类模型时的不确定性是必不可少的。本文解决了计算固定尺寸协方差矩阵特征向量各个条目的置信界的挑战。此外,我们得出了一种方法来绑定逆协方差矩阵的条目,即所谓的精度矩阵。我们方法背后的假设是最小的,要求存在协方差矩阵,其经验估计量会收敛到真正的协方差。我们利用U统计理论来绑定经验协方差矩阵的$ L_2 $扰动。从此结果,我们使用Weyl定理和特征值 - 元素向量身份获得了特征向量的边界,并使用矩阵扰动界限在精度矩阵的条目上得出置信区间。作为这些结果的应用,我们演示了一项新的统计测试,该测试使我们能够测试精度矩阵的非零值。我们将该测试与众所周知的Fisher-Z检验进行了比较,并证明了所提出的统计测试的健全性和可扩展性,及其在医学和物理领域的现实世界数据中的应用。
translated by 谷歌翻译
3D反向工程是一个备受追捧的人,但在计算机辅助设计(CAD)行业中却没有完全实现。目的是恢复CAD模型的施工历史。从CAD模型的边界表示(B-REP)开始,本文提出了一个新的深神经网络CADOPS-NET,该网络共同学习了CAD操作类型和分解为不同的CAD操作步骤。这种联合学习允许将B-REP划分为在同一施工步骤中由各种CAD操作创建的部分;因此,提供相关信息以进一步恢复设计历史记录。此外,我们提出了新颖的CC3D-OPS数据集,其中包括带有CAD操作类型标签和步骤标签注释的37K $ CAD型号。与现有数据集相比,CC3D-OPS模型的复杂性和种类更接近用于工业目的的模型。我们对拟议的CC3D-OPS和公开融合360数据集进行的实验证明了Cadops-NET相对于最先进的竞争性能,并确认了CAD操作类型和步骤联合学习的重要性。
translated by 谷歌翻译
现代ASR体系结构的优化是最高的优先任务之一,因为它为模型培训和推理节省了许多计算资源。该工作提出了一种基于标准构象模型的新的UCONV-CONFORM-FORM-FORMENTERTURE结构,该模型将输入序列长度始终减少16次,从而加快了中间层的工作。为了解决时间维度的大幅减少解决收敛问题,我们使用与U-NET体系结构相似的UP抽样块,以确保正确的CTC损耗计算并稳定网络训练。UCONV-CONFORMENTER架构在训练和推理方面似乎不仅更快,而且与基线构象异构体相比,它的表现更好。我们最佳的UCONV-CONFORNER模型分别在CPU和GPU上显示了40.3%的时期训练时间缩短,47.8%和23.5%的推理加速度。librispeech test_clean和test_other上的相对WER降低了7.3%和9.2%。
translated by 谷歌翻译
在这项工作中,我们将神经头部的头像技术推向百万像素分辨率,同时着重于跨驾驶合成的特别挑战性的任务,即,当驾驶图像的外观与动画源图像大不相同时。我们提出了一组新的神经体系结构和训练方法,这些方法可以利用中分辨率的视频数据和高分辨率图像数据,以达到所需的渲染图像质量和对新视图和运动的概括。我们证明,建议的架构和方法产生令人信服的高分辨率神经化身,在跨驾驶场景中表现优于竞争对手。最后,我们展示了如何将受过训练的高分辨率神经化身模型蒸馏成一个轻量级的学生模型,该模型是实时运行的,并将神经化身的身份锁定到数十个预定的源图像。实时操作和身份锁对于许多实际应用头像系统至关重要。
translated by 谷歌翻译
由于机器学习是当前计算材料科学文献中的流行主题,因此为化合物创建表示形式已成为普遍的位置。这些表示形式很少被比较,因为评估了它们的性能 - 与它们一起使用的算法的性能是非平凡的。由于研究过程引起的许多材料数据集含有偏差和偏斜,因此已经引入了一个集群交叉验证(LOCO-CV),以衡量算法在预测以前看不见的材料基团时的性能。这提出了对Loco-CV测量结果的簇大小范围的影响和控制的问题。我们提出了基于组成的表示之间的详尽比较,并研究了如何使用内核近似功能来更好地分开数据以增强Loco-CV应用程序。我们发现,在大多数测试的任务中,域知识并不能提高机器学习的性能,而带隙预测是显着的例外。我们还发现,径向基函数在所有测试的10个数据集中提高了化学数据集的线性可分离性,并为在Loco-CV过程中应用此函数的应用提供了一个框架,以改善机车-CV测量结果,无论机器学习算法如何,选择度量和复合表示的选择。我们建议将内核Loco-CV作为训练范式,以示材料数据上的算法的外推能力。
translated by 谷歌翻译
本文表明,基于对称决策树的梯度提升可以等效地重新重新重新构成核法,该方法会收敛到某个内核无脊回归问题的解决方案。因此,对于低级内核,我们获得了与高斯过程的收敛后均值,这又使我们能够轻松地将梯度从后部转化为采样器,从而通过蒙特卡洛估计来提供更好的知识不确定性估计。后方差。我们表明,提出的采样器允许更好的知识不确定性估计值,从而改善了域外检测。
translated by 谷歌翻译