从户外移动到现代城市的室内生活方式越来越越来越大。大型购物中心,室内运动综合体,工厂和仓库的出现正在加速这种趋势。在这种环境中,室内本地化成为必要的服务之一,并且要部署的室内定位系统应该足够可扩展,以覆盖这些室内设施的预期扩展。室内定位最经济和实用的方法之一是Wi-Fi指纹识别,它使用移动设备(例如智能手机)利用广泛部署的Wi-Fi网络,而无需任何修改现有基础架构。传统的Wi-Fi指纹窗格依赖于复杂的数据预/后处理和耗时的手动参数调整。在本文中,我们使用Wi-Fi指纹识别基于经常性神经网络(RNN)提出了基于经常性神经网络(RNN)的分层多建筑和多层室内定位,无需复杂的数据预/后处理并且参数调谐较少。所提出的方案中的RNN以一般到特定的一个(例如,建筑物 - >楼层 - >位置)以顺序方式估计位置,以利用多建筑物和多层环境中定位的分层性质。 ujiindoorloc数据集的实验结果表明,所提出的方案分别估计建筑物和地板,分别具有100%和95.24%的精度,并提供了8.62米的三维定位误差,这优于现有的基于神经网络的基于深度基于神经网络的方案。
translated by 谷歌翻译
Object compositing based on 2D images is a challenging problem since it typically involves multiple processing stages such as color harmonization, geometry correction and shadow generation to generate realistic results. Furthermore, annotating training data pairs for compositing requires substantial manual effort from professionals, and is hardly scalable. Thus, with the recent advances in generative models, in this work, we propose a self-supervised framework for object compositing by leveraging the power of conditional diffusion models. Our framework can hollistically address the object compositing task in a unified model, transforming the viewpoint, geometry, color and shadow of the generated object while requiring no manual labeling. To preserve the input object's characteristics, we introduce a content adaptor that helps to maintain categorical semantics and object appearance. A data augmentation method is further adopted to improve the fidelity of the generator. Our method outperforms relevant baselines in both realism and faithfulness of the synthesized result images in a user study on various real-world images.
translated by 谷歌翻译
整个幻灯片图像(WSI)分类是诊断和治疗疾病的基本任务;但是,精确标签的策划是耗时的,并限制了完全监督的方法的应用。为了解决这个问题,多个实例学习(MIL)是一种流行的方法,它仅使用幻灯片级标签作为一个弱监督的学习任务。尽管当前的MIL方法将注意机制的变体应用于具有更强模型的重量实例特征,但注意力不足是对数据分布的属性的不足。在这项工作中,我们建议通过使用Max-Instance(关键)功能的统计数据来重新校准WSI袋(实例)的分布。我们假设在二进制MIL中,正面袋的特征幅度大于负面,因此我们可以强制执行该模型,以最大程度地利用公制特征损失的袋子之间的差异,该袋子将正面袋模型为未分布。为了实现这一目标,与使用单批训练模式的现有MIL方法不同,我们建议平衡批次采样以有效地使用功能丢失,即同时(+/-)袋子。此外,我们采用编码模块(PEM)的位置来建模空间/形态信息,并通过变压器编码器通过多头自我注意(PSMA)进行汇总。现有基准数据集的实验结果表明我们的方法是有效的,并且对最先进的MIL方法有所改善。
translated by 谷歌翻译
尽管化学实验室中基于机器人的自动化可以加速材料开发过程,但无监视的环境可能主要是由于机器控制误差而导致的危险事故。对象检测技术可以在解决这些安全问题方面发挥至关重要的作用;但是,包括单杆检测器(SSD)模型在内的最先进的探测器在涉及复杂和嘈杂场景的环境中的精度不足。为了改善无监视实验室的安全性,我们报告了一种新颖的深度学习(DL)基于对象探测器,即Densessd。对于检测小瓶位置的首要问题和频繁的问题,根据涉及空和溶液填充的小瓶的复杂数据集的平均平均精度(MAP)超过95%,大大超过了传统探测器的平均精度(MAP)。如此高的精度对于最大程度地减少故障引起的事故至关重要。此外,观察到致密的对环境变化高度不敏感,在溶液颜色或测试视图角度的变化下保持其高精度。致密性的稳健性将使使用的设备设置更加灵活。这项工作表明,密集是在自动化材料合成环境中提高安全性很有用,并且可以扩展到需要高检测精度和速度的各种应用。
translated by 谷歌翻译
扫描透射电子显微镜(STEM)是用于多种材料的原子分辨率结构分析的必不可少的工具。 STEM图像的常规分析是一个广泛的动手过程,它限制了高通量数据的有效处理。在这里,我们应用一个完全卷积网络(FCN)来识别二维晶体的重要结构特征。 Resunet是一种FCN的类型,用于识别来自原子分辨率STEM图像的$ {MOS_2} $的硫磺空缺和多晶型物类型。在存在不同水平的噪声,畸变和碳污染的情况下,基于模拟图像的训练来实现有效的模型。 FCN模型对广泛的实验茎图像的准确性与仔细的动手分析相当。我们的工作提供了有关最佳实践的指南,以训练深度学习模型进行STEM图像分析,并证明了FCN有效地处理大量STEM数据的应用。
translated by 谷歌翻译
深度图用于从3D渲染到2D图像效应(例如散景)的广泛应用。但是,单个图像深度估计(侧)模型预测的人通常无法捕获对象中的孤立孔和/或具有不准确的边界区域。同时,使用商业自动掩蔽工具或现成的分割和垫子的方法,甚至是通过手动编辑,使用商业自动掩盖工具或现成的方法更容易获得。因此,在本文中,我们提出了一个新的掩盖引导深度细化的问题,该问题利用通用掩模来完善侧面模型的深度预测。我们的框架执行了分层的细化和介入/架设,将深度图分解为两个由掩码和倒置面罩表示的单独的层。由于具有深度和掩码注释的数据集很少,因此我们提出了一种使用任意掩码和RGB-D数据集的自我监督学习方案。我们从经验上表明,我们的方法对不同类型的掩模和初始深度预测具有鲁棒性,可以准确地完善内部和外掩模边界区域的深度值。我们通过消融研究进一步分析了我们的模型,并证明了实际应用的结果。可以在https://sooyekim.github.io/maskdepth/上找到更多信息。
translated by 谷歌翻译
大多数最新的说话者验证架构都采用了多尺度处理和频道注意机制。这些模型的卷积层通常具有固定的内核大小,例如3或5。在本研究中,我们进一步为这一研究采用了选择性核心注意(SKA)机制。SKA机制允许每个卷积层以数据驱动的方式自适应地选择内核大小。它基于利用频率和通道域的注意机制。我们首先将现有的SKA模块应用于我们的基线。然后,我们提出了两个SKA变体,其中第一个变体在ECAPA-TDNN模型的前面应用,另一个变体与RES2NET骨干块结合使用。通过广泛的实验,我们证明了我们提出的两个SKA变体始终提高性能,并在三个不同的评估方案上进行测试时是互补的。
translated by 谷歌翻译
在本文中,我们提出了自我监督的发言者表示学习策略,该策略包括在前端的引导平衡扬声器表示学习和在后端的不确定性意识的概率扬声器嵌入训练。在前端阶段,我们通过具有均匀性正则化术语的引导训练方案来学习扬声器表示。在后端阶段,通过最大化属于同一扬声器的语音样本之间的相互似然分数来估计概率扬声器嵌入,这不仅提供扬声器表示,而且提供数据不确定性。实验结果表明,拟议的举止均衡训练策略可以有效地帮助了解扬声器表示,并以基于对比学习的传统方法优越。此外,我们展示了集成的两级框架在eer和mindcf方面进一步改善了VoxceleB1测试中的扬声器验证性能。
translated by 谷歌翻译
知识蒸馏(KD),最称为模型压缩的有效方法,旨在将更大的网络(教师)的知识转移到更小的网络(学生)。传统的KD方法通常采用以监督方式培训的教师模型,其中输出标签仅作为目标处理。我们进一步扩展了这一受监督方案,我们为KD,即Oracle老师推出了一种新型的教师模型,它利用源输入和输出标签的嵌入来提取更准确的知识来转移到学生。所提出的模型遵循变压器网络的编码器解码器注意结构,这允许模型从输出标签上参加相关信息。在三种不同的序列学习任务中进行了广泛的实验:语音识别,场景文本识别和机器翻译。从实验结果来看,我们经验证明,拟议的模型在这些任务中改善了学生,同时在教师模型的培训时间内实现了相当大的速度。
translated by 谷歌翻译
尽管深度学习使图像介绍方面取得了巨大的飞跃,但当前的方法通常无法综合现实的高频细节。在本文中,我们建议将超分辨率应用于粗糙的重建输出,以高分辨率进行精炼,然后将输出降低到原始分辨率。通过将高分辨率图像引入改进网络,我们的框架能够重建更多的细节,这些细节通常由于光谱偏置而被平滑 - 神经网络倾向于比高频更好地重建低频。为了协助培训大型高度孔洞的改进网络,我们提出了一种渐进的学习技术,其中缺失区域的大小随着培训的进行而增加。我们的缩放,完善和缩放策略,结合了高分辨率的监督和渐进学习,构成了一种框架 - 不合时宜的方法,用于增强高频细节,可应用于任何基于CNN的涂层方法。我们提供定性和定量评估以及消融分析,以显示我们方法的有效性。这种看似简单但功能强大的方法优于最先进的介绍方法。我们的代码可在https://github.com/google/zoom-to-inpaint中找到
translated by 谷歌翻译