我们开发了一个探索漏洞利用马尔可夫链Monte Carlo算法($ \ OperatorName {ex ^ 2mcmc} $),它结合了多个全局提议和本地移动。所提出的方法是巨大的平行化和极其计算的高效。我们证明$ \ operatorname {ex ^ 2mcmc} $下的$ v $ v $ -unique几何ergodicity在现实条件下,并计算混合速率的显式界限,显示多个全局移动带来的改进。我们展示$ \ operatorname {ex ^ 2mcmc} $允许通过提出依赖全局移动的新方法进行微调剥削(本地移动)和探索(全球移动)。最后,我们开发了一个自适应方案,$ \ OperatorName {Flex ^ 2mcmc} $,它学习使用归一化流的全局动作的分布。我们说明了许多经典采样基准测试的$ \ OperatorName {ex ^ 2mccmc} $及其自适应版本的效率。我们还表明,这些算法提高了对基于能量的模型的抽样GAN的质量。
translated by 谷歌翻译
Self-attentive transformer models have recently been shown to solve the next item recommendation task very efficiently. The learned attention weights capture sequential dynamics in user behavior and generalize well. Motivated by the special structure of learned parameter space, we question if it is possible to mimic it with an alternative and more lightweight approach. We develop a new tensor factorization-based model that ingrains the structural knowledge about sequential data within the learning process. We demonstrate how certain properties of a self-attention network can be reproduced with our approach based on special Hankel matrix representation. The resulting model has a shallow linear architecture and compares competitively to its neural counterpart.
translated by 谷歌翻译
We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained speech model, HuBERT. To this end, we introduce a number of topological and algebraic features derived from Transformer attention maps and embeddings. We show that a simple linear classifier built on top of such features outperforms a fine-tuned classification head. In particular, we achieve an improvement of about $9\%$ accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed feature set reaches a new state of the art performance with accuracy $80.155$. We also show that topological features are able to reveal functional roles of speech Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning. Our results demonstrate that TDA is a promising new approach for speech analysis, especially for tasks that require structural prediction.
translated by 谷歌翻译
包括设备诊断和异常检测在内的工业分析很大程度上依赖于异质生产数据的整合。知识图(kgs)作为数据格式和本体作为统一数据模式是一个突出的解决方案,它提供了高质量的数据集成以及一种方便且标准化的方式来交换数据并将分析应用程序分层。然而,它们之间高度不匹配的本体和工业数据的本体学自然而然导致低质量的KG,这阻碍了工业分析的采用和可扩展性。实际上,这样的kg大大增加了为用户编写查询的培训时间,消耗大量存储以获取冗余信息,并且很难维护和更新。为了解决这个问题,我们提出了一种本体论重塑方法,将本体论转换为KG模式,以更好地反映基本数据,从而有助于构建更好的KGS。在这张海报中,我们对正在进行的研究进行了初步讨论,并通过Bosch上有关现实世界行业数据的大量SPARQL查询来评估我们的方法,并讨论我们的发现。
translated by 谷歌翻译
知识图(kg)用于广泛的应用中。由于行业的数据量和多样性,KG生成的自动化是非常需要的。 KG生成的一种重要方法是将原始数据映射到给定的KG模式,即域本体论,并根据本体论构建实体和属性。但是,这种本体的自动生成是苛刻的,现有的解决方案通常并不令人满意。一个重要的挑战是在本体工程的两个原则之间进行权衡:知识方向和数据取向。前者规定,本体应该对领域的一般知识进行建模,而后者则强调反映数据特异性以确保良好的可用性。我们通过我们的本体研究方法重塑方法来应对这一挑战,该方法将给定领域本体论转换为较小的本体论的过程是自动化的,该本体学是KG模式。域本体论可以设计为以知识为导向,而KG模式涵盖了数据特异性。此外,我们的方法允许在循环中将用户偏好包含在内。我们证明了我们正在进行的有关本体研究重塑的研究,并使用实际的工业数据进行了评估,并有令人鼓舞的结果。
translated by 谷歌翻译
由于长期机器人操作中的地图尺寸的增长,现有的同时定位和映射方法的可伸缩性受到限制。此外,处理此类地图进行本地化和计划任务会导致船上所需的计算资源增加。为了解决长期操作中记忆消耗的问题,我们开发了一种新型的实时SLAM算法,即Meslam,该算法基于神经场隐含的地图表示。它结合了提出的全球映射策略,包括神经网络分布和区域跟踪,以及外部进程系统。结果,该算法能够有效地训练多个代表不同地图区域的网络,并在大规模环境中准确地训练姿势。实验结果表明,所提出的方法的准确性与最新方法(平均为6.6 cm的TUM RGB-D序列)相当,并且优于基线,IMAP $^*$。此外,拟议的SLAM方法提供了最紧凑的地图,而没有细节变形(1.9 MB(1.9 MB)在最先进的大满贯方法中储存57 m $^3 $)。
translated by 谷歌翻译
在本文中,我们建议采用MDE范式来开发机器学习(ML)的软件系统,重点关注物联网(IoT)域。我们说明了如何将两种最先进的开源建模工具,即蒙蒂安娜和ML-Quadrat用于此目的,如案例研究所证明的那样。案例研究说明了使用ML使用MNIST参考数据集对手写数字的自动图像识别的ML,特别是深人造神经网络(ANN),并将机器学习组件集成到物联网系统中。随后,我们对两个框架进行了功能比较,设置了一个分析基础,以包括广泛的设计考虑因素,例如问题域,ML集成到较大系统中的方法以及支持的ML方法以及主题最近对ML社区的强烈兴趣,例如Automl和MLOP。因此,本文的重点是阐明ML域中MDE方法的潜力。这支持ML工程师开发(ML/软件)模型而不是实施代码,并通过启用ML功能作为IoT或IoT的组件的现成集成来实现设计的可重复性和模块化。网络物理系统。
translated by 谷歌翻译
截至今天,基于卷积神经网络-CNN的算法实现了线段检测(LSD)的最佳准确性(LSD)。不幸的是,这些方法利用了深度,重型网络,并且比传统的基于模型的检测器慢。在本文中,我们通过将轻量级CNN纳入经典的LSD检测器中,建立了准确但快速的基于CNN的检测器LSDNET。具体而言,我们用轻量级的CNN替换了原始LSD算法的第一步 - 线段段热图和切线场的构造 - 能够计算出更复杂和丰富的特征。 LSD算法的第二部分仅用于次要修改。与标准线框数据集上的几个现代线段探测器相比,所提出的LSDNET可提供214 fps的最高速度(在基于CNN的探测器中),竞争精度为78 FH。尽管最佳报告的精度为33 fps的83 fh,但我们推测观察到的精度差距是由注释错误引起的,实际差距明显较低。我们指出了流行线检测基准的注释中的系统不一致 - 线框和约克城市,仔细地重新注册了一部分图像,并表明(i)现有检测器在不进行重新训练的情况下改善了质量,而无需重新培训,表明新的注释与新的注释相关,使得新的注释更好地与之相关。正确的线段检测概念; (ii)我们检测器的精度与其他人之间的差距减少到可忽略的0.2 FH,而我们的方法最快。
translated by 谷歌翻译
我们提出了一种从一个或几种视图中重建人头的纹理3D网眼的方法。由于如此少的重建​​缺乏约束,因此需要先验知识,这很难强加于传统的3D重建算法。在这项工作中,我们依靠最近引入的3D表示$ \ unicode {x2013} $ neural隐式函数$ \ unicode {x2013} $,它基于神经网络,允许自然地从数据中学习有关人类头的先验,并且直接转换为纹理网格。也就是说,我们扩展了Neus(一种最新的神经隐式函数公式),以同时代表类的多个对象(在我们的情况下)。潜在的神经网架构旨在学习这些物体之间的共同点,并概括地看不见。我们的模型仅在一百个智能手机视频上进行培训,不需要任何扫描的3D数据。之后,该模型可以以良好的效果以几种镜头或一次性模式适合新颖的头。
translated by 谷歌翻译
在拟议的研究中,我们描述了一种方法,可通过在摄像机和猛击管道之间实现中间层来提高具有多个相机的移动机器人的视觉猛击算法和有限的计算能力的方法。在此层中,图像是使用基于RESNET18的神经网络对机器人定位的适用性进行分类的。该网络接受了在Skolkovo科学技术学院(Skoltech)校园收集的六摄像机数据集培训。对于训练,我们使用与随后的同一相机(“良好”关键点或功能)成功匹配的图像和球形功能。结果表明,网络能够准确地确定Orb-Slam2的最佳图像,并在SLAM管道中实施拟议的方法可以显着增加SLAM算法可以定位的图像数量,并提高其整体鲁棒性,并提高其整体鲁棒性。视觉大满贯。与使用Orb提取器和在CPU操作时使用Orb提取器和功能匹配器相比,操作时间的实验表明,在GPU上运行时,提出的方法的速度至少要快6倍。该网络评估在识别具有大量“良好” ORB关键的图像时至少显示了90%的精度。提出的方法的使用允许通过从具有贫困流的相机切换来保持整个数据集的大量功能。
translated by 谷歌翻译