医学图像分割可以为临床分析提供详细信息,这对于发现的详细位置很重要的情况可能是有用的。了解疾病的位置可以在治疗和决策中发挥重要作用。基于卷积神经网络(CNN)的编码器 - 解码器技术具有自动化医学图像分割系统的性能。几种基于CNN的方法利用了诸如空间和渠道的技术来提高性能。近年来引起关注的另一种技术是残留致密块(RDB)。密集连接块中的连续卷积层能够用不同的接收领域提取各种特征,从而提高性能。然而,连续堆积的卷积运营商可能不一定生成有助于识别目标结构的功能。在本文中,我们提出了一种逐步的交替注意网络(PAANET)。我们开发逐步交替注意密度(Paad)块,其在密集块中的每个卷积层中使用来自所有尺度的特征构建指导注意力图(GAM)。 GAM允许密集块中的以下层集中在与目标区域相关的空间位置。每个备用Paad块都反转GAM以生成反向注意地图,指导后面的图层,以提取边界和边缘相关信息,精炼分割过程。我们对三种不同的生物医学图像分割数据集的实验表明,与其他最先进的方法相比,我们的Paanet达到了有利的性能。
translated by 谷歌翻译
结肠镜检查是一种金标准程序,但依赖于高度操作员。已经努力自动化息肉的检测和分割,这是一种癌前前兆,以有效地减少错过率。广泛使用的通过编码器解码器驱动的计算机辅助息肉分段系统在精度方面具有高性能。然而,从各种中心收集的息肉分割数据集可以遵循不同的成像协议,导致数据分布的差异。因此,大多数方法遭受性能下降,并且需要对每个特定数据集进行重新训练。我们通过提出全局多尺度剩余融合网络(GMSRF-Net)来解决这个概括问题。我们所提出的网络在为所有分辨率尺度执行多尺度融合操作时保持高分辨率表示。为了进一步利用比例信息,我们在GMSRF-Net中设计交叉多尺度注意(CMSA)和多尺度特征选择(MSFS)模块。由CMSA和MSFS门控的重复融合操作展示了网络的改进的概括性。在两种不同的息肉分割数据集上进行的实验表明,我们提出的GMSRF-Net优于先前的最先进的方法,在骰子方面,在看不见的CVC-ClinicDB和Unseen KVasir-SEG上的前一流的最先进方法。系数。
translated by 谷歌翻译
文本独立作者识别是一个具有挑战性的问题,区分不同的笔迹样式来决定手写文本的作者。早期的作家识别依赖于手工制作的功能来揭示作家之间的差异。近期与卷积神经网络的出现,基于深度学习的方法已经发展。在本文中,提出了三种不同的深度学习技术 - 空间注意机制,多尺度特征融合和基于补丁的CNN,以有效地捕获每个作家手写之间的差异。我们的方法基于手写文本图像具有对作家风格更独特的特定空间区域的假设,多尺度特征在各个作家和基于补丁的功能方面传播特征特征,提供更多的一般和强大的表示有助于区分不同作家的笔迹。所提出的方法在三个公开的数据集 - CVL,Firemaker,CETUB-ZEN数据集中优于单词级和页面级写入方法的各种最先进的方法,并在IAM数据集中给出可比性的性能。
translated by 谷歌翻译
面部超分辨率方法的性能依赖于它们有效地收回面部结构和突出特征的能力。尽管卷积神经网络和基于生成的对抗网络的方法在面对幻觉任务中提供令人印象深刻的性能,但使用与低分辨率图像相关的属性来提高性能的能力是不令人满意的。在本文中,我们提出了一种属性引导的注意力发生抗体网络,该受体对抗网络采用新的属性引导的注意力(AGA)模块来识别和聚焦图像中各种面部特征的生成过程。堆叠多个AGA模块可以恢复高电平的高级面部结构。我们设计鉴别者来学习利用高分辨率图像与其相应的面部属性注释之间关系的鉴别特征。然后,我们探索基于U-Net的架构来改进现有预测并综合进一步的面部细节。跨越几个指标的广泛实验表明,我们的AGA-GaN和Aga-GaN + U-Net框架优于其他几种最先进的幻觉的方法。我们还演示了我们的方法的可行性,当每个属性描述符未知并因此建立其在真实情景中的应用程序时。
translated by 谷歌翻译
使用生成对抗网络(GAN)生成的面孔已经达到了前所未有的现实主义。这些面孔,也称为“深色伪造”,看起来像是逼真的照片,几乎没有像素级扭曲。尽管某些工作使能够培训模型,从而导致该主题的特定属性,但尚未完全探索基于自然语言描述的面部图像。对于安全和刑事识别,提供基于GAN的系统的能力像素描艺术家一样有用。在本文中,我们提出了一种新颖的方法,可以从语义文本描述中生成面部图像。学习的模型具有文本描述和面部类型的轮廓,该模型用于绘制功能。我们的模型是使用仿射组合模块(ACM)机制训练的,以使用自发动矩阵结合伯特和甘恩潜在空间的文本。这避免了由于“注意力”不足而导致的功能丧失,如果简单地将文本嵌入和潜在矢量串联,这可能会发生。我们的方法能够生成非常准确地与面部面部的详尽文本描述相符的图像,并具有许多细节的脸部特征,并有助于生成更好的图像。如果提供了其他文本描述或句子,则提出的方法还能够对先前生成的图像进行增量更改。
translated by 谷歌翻译
Annotating words in a historical document image archive for word image recognition purpose demands time and skilled human resource (like historians, paleographers). In a real-life scenario, obtaining sample images for all possible words is also not feasible. However, Zero-shot learning methods could aptly be used to recognize unseen/out-of-lexicon words in such historical document images. Based on previous state-of-the-art method for zero-shot word recognition Pho(SC)Net, we propose a hybrid model based on the CTC framework (Pho(SC)-CTC) that takes advantage of the rich features learned by Pho(SC)Net followed by a connectionist temporal classification (CTC) framework to perform the final classification. Encouraging results were obtained on two publicly available historical document datasets and one synthetic handwritten dataset, which justifies the efficacy of Pho(SC)-CTC and Pho(SC)Net.
translated by 谷歌翻译
\ textit {virtual try-on}(vton)的想法通过为用户提供在舒适的家中尝试服装的便利,从而使电子零售受益。总的来说,当一个人与手臂折叠的人(即弯曲或交叉)想要尝试服装时,大多数现有的VTON方法会产生不一致的结果。在长袖服装的情况下,问题变得严重。当时,对于交叉的臂姿势,可能会发生不同的衣服零件之间的重叠。现有的方法,尤其是采用\ textit {薄板样条(TPS)}的基于扭曲的方法}转换无法解决此类情况。为此,我们尝试了一种解决方案方法,将源头的衣服分为语义上有意义的部分,每个部分都独立扭曲为人的形状。为了解决弯曲问题,我们采用了与人体几何形状一致的手工制作的几何特征来扭曲源装备。此外,我们提出了两个基于学习的模块:合成器网络和一个掩码预测网络。所有这些共同尝试生成光合逼真的,姿势射击的VTON解决方案,而无需任何配对的训练数据。与某些基准方法的比较清楚地确定了该方法的有效性。
translated by 谷歌翻译
Morphological neurons, that is morphological operators such as dilation and erosion with learnable structuring elements, have intrigued researchers for quite some time because of the power these operators bring to the table despite their simplicity. These operators are known to be powerful nonlinear tools, but for a given problem coming up with a sequence of operations and their structuring element is a non-trivial task. So, the existing works have mainly focused on this part of the problem without delving deep into their applicability as generic operators. A few works have tried to utilize morphological neurons as a part of classification (and regression) networks when the input is a feature vector. However, these methods mainly focus on a specific problem, without going into generic theoretical analysis. In this work, we have theoretically analyzed morphological neurons and have shown that these are far more powerful than previously anticipated. Our proposed morphological block, containing dilation and erosion followed by their linear combination, represents a sum of hinge functions. Existing works show that hinge functions perform quite well in classification and regression problems. Two morphological blocks can even approximate any continuous function. However, to facilitate the theoretical analysis that we have done in this paper, we have restricted ourselves to the 1D version of the operators, where the structuring element operates on the whole input. Experimental evaluations also indicate the effectiveness of networks built with morphological neurons, over similarly structured neural networks.
translated by 谷歌翻译