基于医学图像(例如X射线图像)的诊断通常涉及解剖关键的手动注释。但是,这个过程涉及大量的人类努力,因此可以成为诊断过程中的瓶颈。为了充分自动化此过程,基于深度学习的方法已被广泛提出,并在检测医学图像中的关键点方面达到了高性能。但是,这些方法仍然存在临床局限性:无法保证所有情况的准确性,并且医生必须对所有模型的所有预测进行仔细检查。作为回应,我们提出了一个新颖的深神经网络,鉴于X射线图像,它可以通过用户相互作用的系统自动检测和完善解剖学关键点,在该系统中,医生可以以比手动修订过程中所需的点击率更少的点击量来修复错误预测的关键。使用我们自己的收集数据和公开可用的AASCE数据集,我们证明了该方法通过广泛的定量和定性结果来降低注释成本的有效性。我们的项目网页上提供了有关我们方法的演示视频。
translated by 谷歌翻译
通过恢复(实体瘤的响应评估标准)自动测量病变/肿瘤大小,直径和分割对于计算机辅助诊断很重要。尽管近年来已经研究了它,但仍有空间可以提高其准确性和鲁棒性,例如(1)通过合并丰富的上下文信息来增强功能,同时保持高空间分辨率,(2)涉及新任务和损失以进行关节优化。为了实现这一目标,本文提出了一个基于变压器的网络(Meaformer,测量变压器),用于病变恢复直径预测和分割(LRDPS)。它被配制为三个相关和互补任务:病变分割,热图预测和关键点回归。据我们所知,这是首次使用按键重点回归进行恢复直径预测。 MeaeFormer可以通过使用变压器来捕获其远程依赖性来增强高分辨率功能。引入了两个一致性损失,以明确建立这些任务之间的关系,以更好地优化。实验表明,MeAformer实现了LRDP在大规模深层数据集上的最新性能,并在纵向研究中产生了两个下游诊所的任务,即3D病变细分和恢复评估。
translated by 谷歌翻译
作为一线诊断成像方式,射线照相在早期检测髋关节发育不良(DDH)中起着至关重要的作用。在临床上,DDH的诊断依赖于手动测量和对骨盆X光片不同解剖特征的主观评估。这个过程效率低下且容易出错,需要多年的临床经验。在这项研究中,我们提出了一个基于深度学习的系统,该系统自动从X光片中自动检测14个关键点,测量三个解剖学角度(中心边缘,T \“ Onnis和Sharp Angles),并将DDH臀部分类为I-IV级别I-IV级别此外,提出了一种新型数据驱动的评分系统,以定量地整合DDH诊断的信息。提出的键盘检测模型达到了平均值(95%置信区间[CI])的平均精度为0.807) (0.804-0.810。 )和0.953(0.947-0.960),它们明显高于经验丰富的骨科医生(p <0.0001)。此外,使用拟议的得分获得的平均(95%CI)测试诊断协议(Cohen's Kappa)系统为0.84(0.83-0.85),whi CH显着高于从诊断标准获得的单个角度(0.76 [0.75-0.77])和骨科医生(0.71 [0.63-0.79])的CH。据我们所知,这是通过利用深度学习关键点检测和整合不同解剖学测量值的首次进行客观DDH诊断的研究,这可以为临床决策提供可靠且可解释的支持。
translated by 谷歌翻译
脊柱退化困扰着许多长老,办公室工作者,甚至是年轻世代。有效的药剂或外科干预措施可以帮助缓解退行性脊柱条件。然而,传统的诊断程序往往太费力了。临床专家需要从脊柱磁共振成像(MRI)或计算机断层扫描(CT)图像中检测椎间盘和椎骨作为进行病理诊断或术前评价的初步步骤。已经开发了机器学习系统,以帮助这一程序通常在两级方法之后:首先进行解剖定位,然后进行病理分类。为了更高效和准确的诊断,我们提出了一种单阶段检测框架,称为Spineone,同时定位和分类来自MRI切片的退化椎间盘和椎骨。脊柱内置于以下三个关键技术:1)Keypoint Heatmap的新设计,以促进同时关键点本地化和分类; 2)使用注意力模块更好地区分光盘和椎骨之间的表示; 3)一种新颖的梯度引导的客观协会机制,将多个学习目标与后来的培训阶段相关联。脊髓疾病智能诊断的经验结果Tianchi竞争(SDID-TC)550考试的数据集表明,我们的方法通过大幅度超越现有方法。
translated by 谷歌翻译
我们研究了将人类设计师创建的基于图像的,逐步组装手册转换为机器可解剖说明的问题。我们将此问题提出为顺序预测任务:在每个步骤中,我们的模型都读取手册,将要添加到当前形状中的组件定位,并注入其3D姿势。此任务构成了在手动图像和实际3D对象之间建立2D-3D对应关系的挑战,以及对看不见的3D对象的3D姿势估计,因为要在步骤中添加的新组件可以是从前一个步骤中构建的对象。为了应对这两个挑战,我们提出了一个基于学习的新型框架,即手动到执行计划网络(MEPNET),该网络(MEPNET)从一系列手动图像中重建了组装步骤。关键思想是将神经2D关键点检测模块和2D-3D投影算法进行高精度预测和强有力的概括为看不见的组件。 MEPNET在三个新收集的乐高手册数据集和Minecraft House数据集上优于现有方法。
translated by 谷歌翻译
Accurate whole-body multi-person pose estimation and tracking is an important yet challenging topic in computer vision. To capture the subtle actions of humans for complex behavior analysis, whole-body pose estimation including the face, body, hand and foot is essential over conventional body-only pose estimation. In this paper, we present AlphaPose, a system that can perform accurate whole-body pose estimation and tracking jointly while running in realtime. To this end, we propose several new techniques: Symmetric Integral Keypoint Regression (SIKR) for fast and fine localization, Parametric Pose Non-Maximum-Suppression (P-NMS) for eliminating redundant human detections and Pose Aware Identity Embedding for jointly pose estimation and tracking. During training, we resort to Part-Guided Proposal Generator (PGPG) and multi-domain knowledge distillation to further improve the accuracy. Our method is able to localize whole-body keypoints accurately and tracks humans simultaneously given inaccurate bounding boxes and redundant detections. We show a significant improvement over current state-of-the-art methods in both speed and accuracy on COCO-wholebody, COCO, PoseTrack, and our proposed Halpe-FullBody pose estimation dataset. Our model, source codes and dataset are made publicly available at https://github.com/MVIG-SJTU/AlphaPose.
translated by 谷歌翻译
我们观察到,由于不同身体部位的生物学约束,人类的姿势表现出强大的群体结构相关性和空间耦合。可以探索这种群体结构相关性,以提高人类姿势估计的准确性和鲁棒性。在这项工作中,我们开发了一个自我控制的预测验证网络,以表征和学习训练过程中关键点之间的结构相关性。在推理阶段,来自验证网络的反馈信息使我们能够进一步优化姿势预测,从而显着提高了人类姿势估计的性能。具体而言,我们根据人体的生物结构将关键点分组分组。在每个组中,关键点进一步分为两个子集,高信心基础关键点和低信心终端关键点。我们开发一个自我约束的预测验证网络,以在这些关键点子集之间执行前向和向后的预测。姿势估计以及通用预测任务中的一个基本挑战是,由于无法获得地面真相,因此我们没有机制可以验证获得的姿势估计或预测结果是否准确。一旦成功学习,验证网络将用作前向姿势预测的准确性验证模块。在推理阶段,它可用于指导低保持信心关键点的姿势估计结果的局部优化,而高信心关键点的自我约束损失是目标函数。我们对基准MS可可和人群数据集的广泛实验结果表明,所提出的方法可以显着改善姿势估计结果。
translated by 谷歌翻译
我们提出了一种直接的,基于回归的方法,以从单个图像中估计2D人姿势。我们将问题提出为序列预测任务,我们使用变压器网络解决了问题。该网络直接学习了从图像到关键点坐标的回归映射,而无需诉诸中间表示(例如热图)。这种方法避免了与基于热图的方法相关的许多复杂性。为了克服以前基于回归的方法的特征错位问题,我们提出了一种注意机制,该机制适应与目标关键最相关的功能,从而大大提高了准确性。重要的是,我们的框架是端到端的可区分,并且自然学会利用关键点之间的依赖关系。两个主要的姿势估计数据集在MS-Coco和MPII上进行的实验表明,我们的方法在基于回归的姿势估计中的最新方法显着改善。更值得注意的是,与最佳的基于热图的姿势估计方法相比,我们的第一种基于回归的方法是有利的。
translated by 谷歌翻译
当有足够的训练数据时,在某些视力任务中,基于变压器的模型(例如Vision Transformer(VIT))可以超越跨趋化神经网络(CNN)。然而,(CNN)对视力任务(即翻译均衡和局部性)具有强大而有用的归纳偏见。在这项工作中,我们开发了一种新颖的模型架构,我们称之为移动鱼类地标检测网络(MFLD-NET)。我们已经使用基于VIT的卷积操作(即斑块嵌入,多层感知器)制作了该模型。 MFLD-NET可以在轻巧的同时获得竞争性或更好的结果,同时轻巧,因此适用于嵌入式和移动设备。此外,我们表明MFLD-NET可以在PAR上获得关键点(地标)估计精度,甚至比FISH图像数据集上的某些最先进的(CNN)更好。此外,与VIT不同,MFLD-NET不需要预训练的模型,并且在小型数据集中训练时可以很好地概括。我们提供定量和定性的结果,以证明该模型的概括能力。这项工作将为未来开发移动但高效的鱼类监测系统和设备的努力奠定基础。
translated by 谷歌翻译
关键点检测在各种应用中起着重要作用。然而,预测诸如人手的小物体的关键点是一个具有挑战性的问题。最近的作品融合了深度卷积神经网络(CNNS)的映射,可通过多级功能集成或多分辨率聚合。尽管取得了一些成功,但功能融合方法增加了CNNS的复杂性和不透明度。为了解决这个问题,我们提出了一个名为Multi-Scale Deep Smotional网络(P-MSDSNet)的新型CNN模型,该网络在不同尺度上学习具有深度监控的特征映射,以产生从层到层的自适应特征传播的注意映射。 P-MSDSNET具有多级架构,可扩展,同时其具有空间注意力的深度监控可提高每个阶段的特征学习的透明度。我们显示P-MSDSNet优于基准数据集的最先进的方法,同时需要更少数量的参数。我们还显示P-MSDSNet的应用来量化神经科学研究中的手指攻丝手动运动。
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
在这项工作中,我们专注于互动人类解析(IHP),旨在将人体形象分成多个人体部位,具有来自用户的相互作用的指导。这项新任务继承了人类解析的类感知属性,其无法通过通常是禁止类别的传统交互式图像分割方法很好地解决。为了解决这项新任务,我们首先利用用户点击以识别给定图像中的不同人为部分。随后将这些点击转换为语义感知的本地化映射,其与RGB图像连接以形成分割网络的输入并生成初始解析结果。为了使网络能够更好地了解用户在校正过程中的目的,我们调查了改进的几个主要方法,并揭示了基于随机采样的点击增强是推广校正效果的最佳方式。此外,我们还提出了一种语义感知损失(SP损失)来增加培训,这可以有效利用点击的语义关系以获得更好的优化。为了最好的知识,这项工作是第一次尝试在交互式设置下解决人类解析任务。我们的IHP解决方案在基准嘴唇上实现了85 \%Miou,Pascal-Person-Part和CiHP,75 \%Miou,只有1.95,3.02,2.84和每班3.09点击的Helen。这些结果表明,我们只需几个人类努力就可以获得高品质的人类解析面具。我们希望这项工作能够激励更多的研究人员在未来为IHP开发数据有效的解决方案。
translated by 谷歌翻译
基于Heatmap回归的深度学习模型彻底改变了面部地标定位的任务,现有模型在大型姿势,非均匀照明和阴影,闭塞和自闭合,低分辨率和模糊。然而,尽管采用了广泛的采用,Heatmap回归方法遭受与热图编码和解码过程相关的离散化引起的误差。在这项工作中,我们表明这些误差对面部对准精度具有令人惊讶的大量负面影响。为了减轻这个问题,我们通过利用底层连续分布提出了一种热爱编码和解码过程的新方法。为了充分利用新提出的编码解码机制,我们还介绍了基于暹罗的训练,该训练能够在各种几何图像变换上实施热线图一致性。我们的方法在多个数据集中提供了明显的增益,在面部地标本地化中设置新的最先进的结果。旁边的代码将在https://www.adrianbulat.com/face-alignment上提供
translated by 谷歌翻译
解剖标志的本地化对于临床诊断,治疗计划和研究至关重要。在本文中,我们提出了一种新的深网络,名为特征聚合和细化网络(Farnet),用于自动检测解剖标记。为了减轻医疗领域的培训数据有限的问题,我们的网络采用了在自然图像上预先培训的深网络,因为骨干网络和几个流行的网络进行了比较。我们的FARNET还包括多尺度特征聚合模块,用于多尺度特征融合和用于高分辨率热图回归的特征精制模块。粗细的监督应用于两个模块,以方便端到端培训。我们进一步提出了一种名为指数加权中心损耗的新型损失函数,用于准确的热爱回归,这侧重于地标附近的像素的损失并抑制了远处的损失。我们的网络已经在三个公开的解剖学地标检测数据集中进行了评估,包括头部测量射线照片,手射线照片和脊柱射线照相,并在所有三个数据集上实现最先进的性能。代码可用:\ url {https://github.com/juvenileinwind/farnet}
translated by 谷歌翻译
在过去的几十年中,面部识别(FR)在计算机视觉和模式识别社会中进行了积极研究。最近,由于深度学习的进步,FR技术在大多数基准数据集中都显示出高性能。但是,当将FR算法应用于现实世界的情况时,该性能仍然不令人满意。这主要归因于训练和测试集之间的不匹配。在此类不匹配中,训练和测试面之间的面部不对对准是阻碍成功的FR的因素之一。为了解决这一限制,我们提出了一个脸型引导的深度特征对齐框架,以使fr稳健地对脸错位。基于面部形状的先验(例如,面部关键点),我们通过引入对齐方式和未对准的面部图像之间的对齐过程,即像素和特征对齐方式来训练所提出的深网。通过像从面部图像和面部形状提取的聚合特征解码的像素对齐过程,我们添加了辅助任务以重建良好的面部图像。由于汇总功能通过特征对齐过程链接到面部功能提取网络作为指南,因此我们将强大的面部功能训练到面部未对准。即使在训练阶段需要面部形状估计,通常在传统的FR管道中纳入的额外面部对齐过程在测试阶段不一定需要。通过比较实验,我们验证了提出的方法与FR数据集的面部未对准的有效性。
translated by 谷歌翻译
基于点击的交互式图像分割的目的是获得用户交互有限的精确对象分割掩码,即通过最少数量的用户点击。现有方法要求用户提供所有点击:首先检查分割掩码,然后在迭代区域上提供标记区域错误的点。我们提出一个问题:我们的模型可以直接预测在哪里单击,以进一步降低用户交互成本?为此,我们提出{\ pseudoclick},这是一个通用框架,使现有的分割网络能够提出下一步点击。这些自动生成的点击,称为伪单击,这是模仿人类点击的模仿,以完善细分面膜。
translated by 谷歌翻译
运动估计是用于评估目标器官解剖学和功能的动态医学图像处理的基本步骤。然而,通过评估局部图像相似性通过评估局部图像相似性优化运动场的基于图像的运动估计方法,易于产生令人难以置信的估计,尤其是在大运动的情况下。在这项研究中,我们提供了一种新颖的稀疏密度(DSD)的运动估计框架,其包括两个阶段。在第一阶段,我们处理原始密集图像以提取稀疏地标以表示目标器官解剖拓扑,并丢弃对运动估计不必要的冗余信息。为此目的,我们介绍一个无监督的3D地标检测网络,以提取用于目标器官运动估计的空间稀疏但代表性的地标。在第二阶段,我们从两个不同时间点的两个图像的提取稀疏地标的稀疏运动位移得出。然后,我们通过将稀疏地标位移突出回致密图像域,呈现运动重建网络来构造运动场。此外,我们从我们的两级DSD框架中使用估计的运动场作为初始化,并提高轻量级且有效的迭代优化中的运动估计质量。我们分别评估了两种动态医学成像任务的方法,分别为模型心脏运动和肺呼吸运动。与现有的比较方法相比,我们的方法产生了出色的运动估计精度。此外,广泛的实验结果表明,我们的解决方案可以提取良好代表性解剖标志,而无需手动注释。我们的代码在线公开提供。
translated by 谷歌翻译
自动核细胞分割和分类在数字病理学中起着至关重要的作用。但是,以前的作品主要基于具有有限的多样性和小尺寸的数据构建,使得在实际下游任务中的结果可疑或误导。在本文中,我们的目标是建立一种可靠且强大的方法,能够处理“临床野生”中的数据。具体地,我们研究和设计一种同时检测,分段和分类来自血红素和曙红(H&E)染色的组织病理学数据的新方法,并使用最近的最大数据集评估我们的方法:Pannuke。我们以新颖的语义关键点估计问题解决每个核的检测和分类,以确定每个核的中心点。接下来,使用动态实例分段获得核心点的相应类别 - 不可止液掩模。通过解耦两个同步具有挑战性的任务,我们的方法可以从类别感知的检测和类别不可知的细分中受益,从而导致显着的性能提升。我们展示了我们提出的核细胞分割和分类方法的卓越性能,跨越19种不同的组织类型,提供了新的基准结果。
translated by 谷歌翻译
在自然谈话和互动中,我们的手经常重叠或彼此接触。由于双手的均匀外观,这使得估计从图像互动的3D姿势困难。在本文中,我们证明了自我相似性,以及将像素观测分配给各自的手和它们的部分的产生的歧义是最终3D姿势错误的主要原因。通过这种洞察力,我们提出了数字,一种估计来自单眼图像的两个交互手的3D姿势的新方法。该方法包括两个交织分支,该分支处理输入图像到每个像素语义部分分段掩模和视觉特征卷。与事先工作相比,我们不会从姿势估计阶段解耦分割,而是直接利用每个像素概率直接在下游姿势估计任务中。为此,零件概率与视觉功能合并并通过全卷积层处理。我们通过实验表明,该方法在Interhand2.6M数据集中实现了新的最先进的性能。我们提供详细的消融研究,以证明我们方法的功效,并提供对像素所有权建模如何影响3D手姿势估计的见解。
translated by 谷歌翻译
我们提出了一种新颖的形状意识的关系网络,用于内窥镜粘膜颌下粘膜释放(ESD)手术中的准确和实时地标检测。这项任务具有很大的临床意义,但由于复杂的手术环境中出血,照明反射和运动模糊而极其挑战。与现有解决方案相比,通过使用复杂的聚合方案忽略靶向对象之间的几何关系或捕获关系,所提出的网络能够实现令人满意的精度,同时通过充分利用地标之间的空间关系来保持实时性能。我们首先设计一种算法来自动生成关系关键点热量表,其能够直观地代表地标之间的空间关系的先验知识,而无需使用任何额外的手动注释工作。然后,我们开发两个互补正规计划,以逐步将先验知识纳入培训过程。虽然一个方案通过多任务学习引入像素级正则化,但另一个方案通过利用新设计的分组的一致性评估器来实现全局级正则化,该评估将关系约束以越野方式添加到所提出的网络。这两个方案都有利于训练模型,并且可以随时推动才能卸载,以实现实时检测。我们建立了一个大型内部数据集的ESD手术,用于食管癌,以验证我们提出的方法的有效性。广泛的实验结果表明,我们的方法在准确性和效率方面优于最先进的方法,更快地实现了更好的检测结果。在两个下游应用的有希望的结果进一步证实了我们在ESD临床实践中的方法的巨大潜力。
translated by 谷歌翻译