该报告解释,实施和扩展了“更紧密的变化界限不一定更好”所介绍的作品(T Rainforth等,2018)。我们提供了理论和经验证据,这些证据增加了重要性的重要性数量$ k $在重要性加权自动编码器(IWAE)中(Burda等,2016)降低了推理中梯度估计量的信噪比(SNR)网络,从而影响完整的学习过程。换句话说,即使增加$ k $减少了梯度的标准偏差,但它也会更快地降低真实梯度的幅度,从而增加梯度更新的相对差异。进行广泛的实验以了解$ k $的重要性。这些实验表明,更紧密的变化界限对生成网络有益,而宽松的边界对推理网络来说是可取的。通过这些见解,可以实施和研究三种方法:部分重要性加权自动编码器(PIWAE),倍增重要性加权自动编码器(MIWAE)和组合重要性加权自动编码器(CIWAE)。这三种方法中的每一种都需要IWAE作为一种特殊情况,但采用不同的重量权重,以确保较高的梯度估计器的SNR。在我们的研究和分析中,这些算法的疗效在多个数据集(如MNIST和Omniglot)上进行了测试。最后,我们证明了三种呈现的IWAE变化能够产生近似后验分布,这些分布与IWAE更接近真正的后验分布,同时匹配IWAE生成网络的性能,或者在PIWAE的情况下可能超过其表现。
translated by 谷歌翻译
With an increasing amount of data in the art world, discovering artists and artworks suitable to collectors' tastes becomes a challenge. It is no longer enough to use visual information, as contextual information about the artist has become just as important in contemporary art. In this work, we present a generic Natural Language Processing framework (called ArtLM) to discover the connections among contemporary artists based on their biographies. In this approach, we first continue to pre-train the existing general English language models with a large amount of unlabelled art-related data. We then fine-tune this new pre-trained model with our biography pair dataset manually annotated by a team of professionals in the art industry. With extensive experiments, we demonstrate that our ArtLM achieves 85.6% accuracy and 84.0% F1 score and outperforms other baseline models. We also provide a visualisation and a qualitative analysis of the artist network built from ArtLM's outputs.
translated by 谷歌翻译
It is well known that the performance of any classification model is effective if the dataset used for the training process and the test process satisfy some specific requirements. In other words, the more the dataset size is large, balanced, and representative, the more one can trust the proposed model's effectiveness and, consequently, the obtained results. Unfortunately, large-size anonymous datasets are generally not publicly available in biomedical applications, especially those dealing with pathological human face images. This concern makes using deep-learning-based approaches challenging to deploy and difficult to reproduce or verify some published results. In this paper, we suggest an efficient method to generate a realistic anonymous synthetic dataset of human faces with the attributes of acne disorders corresponding to three levels of severity (i.e. Mild, Moderate and Severe). Therefore, a specific hierarchy StyleGAN-based algorithm trained at distinct levels is considered. To evaluate the performance of the proposed scheme, we consider a CNN-based classification system, trained using the generated synthetic acneic face images and tested using authentic face images. Consequently, we show that an accuracy of 97,6\% is achieved using InceptionResNetv2. As a result, this work allows the scientific community to employ the generated synthetic dataset for any data processing application without restrictions on legal or ethical concerns. Moreover, this approach can also be extended to other applications requiring the generation of synthetic medical images. We can make the code and the generated dataset accessible for the scientific community.
translated by 谷歌翻译
文化遗产的理解和保存对于社会来说是一个重要的问题,因为它代表了其身份的基本方面。绘画代表了文化遗产的重要组成部分,并且是不断研究的主题。但是,观众认为绘画与所谓的HVS(人类视觉系统)行为严格相关。本文重点介绍了一定数量绘画的视觉体验期间观众的眼动分析。在进一步的详细信息中,我们引入了一种新的方法来预测人类的视觉关注,这影响了人类的几种认知功能,包括对场景的基本理解,然后将其扩展到绘画图像。拟议的新建筑摄入图像并返回扫描路径,这是一系列积分,具有引起观众注意力的很有可能性。我们使用FCNN(完全卷积的神经网络),其中利用了可区分的渠道选择和软弧度模块。我们还将可学习的高斯分布纳入网络瓶颈上,以模拟自然场景图像中的视觉注意力过程偏见。此外,为了减少不同域之间的变化影响(即自然图像,绘画),我们敦促模型使用梯度反转分类器从其他域中学习无监督的一般特征。在准确性和效率方面,我们的模型获得的结果优于现有的最先进的结果。
translated by 谷歌翻译
在基于学术和行业的研究中,在线评估方法都被视为推荐系统等交互式应用程序的黄金标准。自然,这样做的原因是,我们可以直接测量依赖干预措施的实用程序指标,这是向用户显示的建议。然而,由于多种原因,在线评估方法是昂贵的,并且对于可靠的离线评估程序仍然存在明确的需求。在行业中,离线指标通常被用作一线评估,以生成有前途的候选模型来在线评估。在学术工作中,对在线系统的有限访问使离线指标是验证新方法的事实上的方法。存在两个类别的离线指标:基于代理的方法和反事实方法。头等舱通常与我们关心的在线指标相关,而后一类仅根据在现实世界中无法实现的假设提供理论保证。在这里,我们表明基于模拟的比较为离线指标提供了前进的方向,并认为它们是可取的评估手段。
translated by 谷歌翻译
我们设计和分析了量子变压器,扩展了最先进的经典变压器神经网络体系结构,已知在自然语言处理和图像分析中表现出色。在先前用于数据加载和正交神经层的参数化量子电路的工作的基础上,我们引入了三种量子注意机制,包括基于复合矩阵的量子变压器。这些量子体系结构可以使用浅量子电路构建,并可以提供定性不同的分类模型。与最佳的经典变压器和其他经典基准相比,我们对标准医疗图像数据集进行了量子变压器的广泛模拟,这些量子变压器表现出竞争力,有时表现更好。与经典算法相对于分类图像的大小,我们的量子注意层的计算复杂性被证明是有利的。与拥有数百万参数的最佳经典方法相比,我们的量子体系结构具有数千个参数。最后,我们在超导量子计算机上实施了量子变压器,并获得了多达六个量子实验的令人鼓舞的结果。
translated by 谷歌翻译
大多数经典的大满贯系统都依赖于静态场景假设,这限制了其在现实世界中的适用性。最近提出了最近的SLAM框架来同时跟踪相机和移动对象。但是,他们通常无法估计物体的规范姿势并表现出低对象跟踪精度。为了解决这个问题,我们提出了Twistslam ++,这是一种语义,动态的,全动态的,可融合立体声图像和LiDAR信息。使用语义信息,我们跟踪可能移动对象,并将它们与LIDAR扫描中的3D对象检测相关联,以获得其姿势和尺寸。然后,我们对连续对象扫描进行注册以完善对象姿势估计。最后,使用对象扫描来估计对象的形状,并约束MAP点位于BA内的估计表面上。我们在经典的基准上表明,基于多模式信息的这种融合方法提高了对象跟踪的准确性。
translated by 谷歌翻译
以良好的样本外观的方式设计用于机器学习和决策的数据驱动配方是一个关键挑战。良好的样本性能并不能保证良好的样本外部性能通常被称为过度拟合的观察结果。实际过度拟合通常不能归因于一个原因,而是一次由几个因素引起的。我们在这里考虑三个过度拟合来源:(i)使用有限样本数据的统计误差,(ii)仅在数据点仅以有限的精度测量数据点时发生的数据噪声,最后(iii)数据错误指定,其中a误解所有数据中的一小部分可能会完全损坏。我们认为,尽管现有的数据驱动的配方可能会孤立地对这三个来源之一,但它们并不能同时对所有过度拟合来源提供全面的保护。我们设计了一种新型的数据驱动公式,它确实可以保证这种整体保护,并且在计算上也可行。我们的分布在强大的优化配方中可以解释为kullback-leibler和Levy-Prokhorov强大优化配方的新型组合。最后,我们展示了在分类和回归问题的背景下,几种受欢迎的正则化和健壮的配方如何减少到我们提出的更通用的配方的特定情况下。
translated by 谷歌翻译
推荐系统已被广泛用于各种领域,例如音乐,电影,电子购物。等等。在大多避免数字化之后,由于流行病而最近达到了技术转折点,使在线销售显着增长,并提供定量的定量性。有关艺术家和艺术品的在线数据。在这项工作中,我们提出了一个基于内容的推荐系统,依靠艺术品和艺术家的上下文元数据的图像。我们收集和注释的艺术品提供了高级和特定于艺术的信息,以创建一个完全独特的数据库,该数据库用于培训我们的模型。有了这些信息,我们在艺术品之间构建了一个接近图。同样,我们使用NLP技术来表征艺术家的实践,并从展览和其他活动历史中提取信息,以在艺术家之间创建近距离图。图形分析的力量使我们能够基于艺术品和艺术家的视觉和上下文信息的结合提供艺术品推荐系统。经过一组艺术专家的评估,与他们的专业评估相比,我们的平均最终评分为75%。
translated by 谷歌翻译
我们基于最近普及的隐式神经形状表示,探索了从点云进行基于学习形状重建的新想法。我们将这个问题作为对特征空间中隐式神经签名距离函数的几次学习,我们使用基于梯度的元学习来处理。我们使用卷积编码器在给定输入点云的情况下构建特征空间。隐式解码器学会了预测此特征空间中表示的签名距离值。设置输入点云,即从目标形状函数的零级别设置中的样本,作为支持(即上下文)的少数学习术语的支持(即上下文),我们训练解码器,以便它可以通过使用该上下文的基础形状使其重新调整。几(5)个调整步骤。因此,我们首次同时结合了两种类型的隐式神经网络调节机制,即具有编码和元学习。我们的数值和定性评估表明,在稀疏点云中隐性重建的背景下,我们提出的策略,即在特征空间中的元学习,优于现有的替代方案,即特征空间中的标准监督学习,以及在欧几里得空间中的元学习。 ,同时仍提供快速推理。
translated by 谷歌翻译