深度学习技术在检测医学图像中的对象方面取得了成功,但仍然遭受虚假阳性预测,可能会阻碍准确的诊断。神经网络输出的估计不确定性已用于标记不正确的预测。我们研究了来自神经网络不确定性估计的功能和基于形状的特征,这些特征是根据二进制预测计算出的,从二进制预测中,通过开发基于分类的后处理步骤来减少肝病病变检测中的假阳性,以用于不同的不确定性估计方法。我们证明了两个数据集上所有不确定性估计方法的神经网络的病变检测性能(相对于F1分数)的改善,分别包括腹部MR和CT图像。我们表明,根据神经网络不确定性估计计算的功能往往不会有助于降低假阳性。我们的结果表明,诸如阶级不平衡(真实假阳性比率)和从不确定性图提取的基于形状的特征之类的因素在区分假阳性和真实阳性预测方面起着重要作用
translated by 谷歌翻译
Objective: Convolutional neural networks (CNNs) have demonstrated promise in automated cardiac magnetic resonance image segmentation. However, when using CNNs in a large real-world dataset, it is important to quantify segmentation uncertainty and identify segmentations which could be problematic. In this work, we performed a systematic study of Bayesian and non-Bayesian methods for estimating uncertainty in segmentation neural networks. Methods: We evaluated Bayes by Backprop, Monte Carlo Dropout, Deep Ensembles, and Stochastic Segmentation Networks in terms of segmentation accuracy, probability calibration, uncertainty on out-of-distribution images, and segmentation quality control. Results: We observed that Deep Ensembles outperformed the other methods except for images with heavy noise and blurring distortions. We showed that Bayes by Backprop is more robust to noise distortions while Stochastic Segmentation Networks are more resistant to blurring distortions. For segmentation quality control, we showed that segmentation uncertainty is correlated with segmentation accuracy for all the methods. With the incorporation of uncertainty estimates, we were able to reduce the percentage of poor segmentation to 5% by flagging 31--48% of the most uncertain segmentations for manual review, substantially lower than random review without using neural network uncertainty (reviewing 75--78% of all images). Conclusion: This work provides a comprehensive evaluation of uncertainty estimation methods and showed that Deep Ensembles outperformed other methods in most cases. Significance: Neural network uncertainty measures can help identify potentially inaccurate segmentations and alert users for manual review.
translated by 谷歌翻译
深度学习(DL)模型为各种医学成像基准挑战提供了最先进的性能,包括脑肿瘤细分(BRATS)挑战。然而,局灶性病理多隔室分割(例如,肿瘤和病变子区)的任务特别具有挑战性,并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性,可以实现最不确定的地区的临床审查,从而建立信任并铺平临床翻译。最近,已经引入了许多不确定性估计方法,用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中,我们探索并评估在Brats 2019-2020任务期间开发的公制,以对不确定量化量化(Qu-Brats),并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制(1)奖励不确定性估计,对正确断言产生高置信度,以及在不正确的断言处分配低置信水平的估计数,(2)惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性,所有这些都参与了主要的Brats细分任务。总体而言,我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值,因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。
translated by 谷歌翻译
深度神经网络已成为3D医学图像自动分割的金标准方法。然而,由于缺乏对所提供的结果评估可理解的不确定性评估,他们被临床医生的全部接受仍然受到阻碍。量化其不确定性的大多数方法,例如流行的蒙特卡洛辍学物,仅限于在体素水平上预测的某种不确定性度量。除了与真正的医学不确定性无关紧要之外,这在临床上并不令人满意,因为大多数感兴趣的对象(例如,脑部病变)是由素食组成的,其整体相关性可能不会简单地减少其个人不确定性的总和或平均值。在这项工作中,我们建议使用创新的图形神经网络方法超越体素评估,并从蒙特卡洛辍学模型的输出中训练。该网络允许融合体素不确定性的三个估计量:熵,方差和模型的置信度;并且可以应用于任何病变,无论其形状或大小如何。我们证明了我们方法对多发性硬化病变的任务的不确定性估计的优势。
translated by 谷歌翻译
简介白质超强度(WMHS)的自动分割是磁共振成像(MRI)神经影像分析的重要步骤。流体减弱的反转恢复(FLAIR加权)是MRI对比度,对于可视化和量化WMHS,这是脑小血管疾病和阿尔茨海默氏病(AD)特别有用的。临床MRI方案迁移到三维(3D)FLAIR加权的采集,以在所有三个体素维度中实现高空间分辨率。当前的研究详细介绍了深度学习工具的部署,以使自动化的WMH分割和表征从获得的3D Flair加权图像作为国家广告成像计划的一部分获得。 DDI研究中的642名参与者(283名男性,平均年龄:(65.18 +/- 9.33)年)中的材料和方法,在五个国家收集地点进行了培训和验证两个内部网络。在642名参与者的内部数据和一个外部数据集中,对三个模型进行了测试,其中包含来自国际合作者的29个情况。这些测试集进行了独立评估。使用了五个已建立的WMH性能指标与地面真理人体分割进行比较。测试的三个网络的结果,3D NNU-NET具有最佳性能,平均骰子相似性系数得分为0.78 +/- 0.10,其性能优于内部开发的2.5D模型和SOTA DEEP DEEP BAYESIAN网络。结论MRI协议中3D Flair加权图像的使用越来越多,我们的结果表明,WMH分割模型可以在3D数据上进行训练,并产生与无需更高的或更好的无需先进的WMH分割性能用于包括T1加权图像系列。
translated by 谷歌翻译
最近关于Covid-19的研究表明,CT成像提供了评估疾病进展和协助诊断的有用信息,以及帮助理解疾病。有越来越多的研究,建议使用深度学习来使用胸部CT扫描提供快速准确地定量Covid-19。兴趣的主要任务是胸部CT扫描的肺和肺病变的自动分割,确认或疑似Covid-19患者。在这项研究中,我们使用多中心数据集比较12个深度学习算法,包括开源和内部开发的算法。结果表明,合并不同的方法可以提高肺部分割,二元病变分割和多种子病变分割的总体测试集性能,从而分别为0.982,0.724和0.469的平均骰子分别。将得到的二元病变分段为91.3ml的平均绝对体积误差。通常,区分不同病变类型的任务更加困难,分别具有152mL的平均绝对体积差,分别为整合和磨碎玻璃不透明度为0.369和0.523的平均骰子分数。所有方法都以平均体积误差进行二元病变分割,该分段优于人类评估者的视觉评估,表明这些方法足以用于临床实践中使用的大规模评估。
translated by 谷歌翻译
分配转移或培训数据和部署数据之间的不匹配是在高风险工业应用中使用机器学习的重要障碍,例如自动驾驶和医学。这需要能够评估ML模型的推广以及其不确定性估计的质量。标准ML基线数据集不允许评估这些属性,因为培训,验证和测试数据通常相同分布。最近,已经出现了一系列专用基准测试,其中包括分布匹配和转移的数据。在这些基准测试中,数据集在任务的多样性以及其功能的数据模式方面脱颖而出。虽然大多数基准测试由2D图像分类任务主导,但Shifts包含表格天气预测,机器翻译和车辆运动预测任务。这使得可以评估模型的鲁棒性属性,并可以得出多种工业规模的任务以及通用或直接适用的特定任务结论。在本文中,我们扩展了偏移数据集,其中两个数据集来自具有高社会重要性的工业高风险应用程序。具体而言,我们考虑了3D磁共振脑图像中白质多发性硬化病变的分割任务以及海洋货物容器中功耗的估计。两项任务均具有无处不在的分配变化和由于错误成本而构成严格的安全要求。这些新数据集将使研究人员能够进一步探索新情况下的强大概括和不确定性估计。在这项工作中,我们提供了两个任务的数据集和基线结果的描述。
translated by 谷歌翻译
多发性硬化症(MS)是中枢神经系统的慢性炎症和退行性疾病,其特征在于,白色和灰质的外观与个体患者的神经症状和标志进行地平整相关。磁共振成像(MRI)提供了详细的体内结构信息,允许定量和分类MS病变,其批判性地通知疾病管理。传统上,MS病变在2D MRI切片上手动注释,一个流程效率低,易于观察室内误差。最近,已经提出了自动统计成像分析技术以基于MRI体素强度检测和分段段病变。然而,它们的有效性受到MRI数据采集技术的异质性和MS病变的外观的限制。通过直接从图像学习复杂的病变表现,深度学习技术已经在MS病变分割任务中取得了显着的突破。在这里,我们提供了全面审查最先进的自动统计和深度学习MS分段方法,并讨论当前和未来的临床应用。此外,我们审查了域适应等技术策略,以增强现实世界临床环境中的MS病变分段。
translated by 谷歌翻译
In medical image analysis, automated segmentation of multi-component anatomical structures, which often have a spectrum of potential anomalies and pathologies, is a challenging task. In this work, we develop a multi-step approach using U-Net-based neural networks to initially detect anomalies (bone marrow lesions, bone cysts) in the distal femur, proximal tibia and patella from 3D magnetic resonance (MR) images of the knee in individuals with varying grades of osteoarthritis. Subsequently, the extracted data are used for downstream tasks involving semantic segmentation of individual bone and cartilage volumes as well as bone anomalies. For anomaly detection, the U-Net-based models were developed to reconstruct the bone profiles of the femur and tibia in images via inpainting so anomalous bone regions could be replaced with close to normal appearances. The reconstruction error was used to detect bone anomalies. A second anomaly-aware network, which was compared to anomaly-na\"ive segmentation networks, was used to provide a final automated segmentation of the femoral, tibial and patellar bones and cartilages from the knee MR images containing a spectrum of bone anomalies. The anomaly-aware segmentation approach provided up to 58% reduction in Hausdorff distances for bone segmentations compared to the results from the anomaly-na\"ive segmentation networks. In addition, the anomaly-aware networks were able to detect bone lesions in the MR images with greater sensitivity and specificity (area under the receiver operating characteristic curve [AUC] up to 0.896) compared to the anomaly-na\"ive segmentation networks (AUC up to 0.874).
translated by 谷歌翻译
This paper focuses on the uncertainty estimation of white matter lesions (WML) segmentation in magnetic resonance imaging (MRI). On one side, voxel-scale segmentation errors cause the erroneous delineation of the lesions; on the other side, lesion-scale detection errors lead to wrong lesion counts. Both of these factors are clinically relevant for the assessment of multiple sclerosis patients. This work aims to compare the ability of different voxel- and lesion- scale uncertainty measures to capture errors related to segmentation and lesion detection respectively. Our main contributions are (i) proposing new measures of lesion-scale uncertainty that do not utilise voxel-scale uncertainties; (ii) extending an error retention curves analysis framework for evaluation of lesion-scale uncertainty measures. Our results obtained on the multi-center testing set of 58 patients demonstrate that the proposed lesion-scale measures achieves the best performance among the analysed measures. All code implementations are provided at https://github.com/NataliiaMolch/MS_WML_uncs
translated by 谷歌翻译
机器学习算法支撑现代诊断辅助软件,这在临床实践中证明了有价值的,特别是放射学。然而,不准确的是,主要是由于临床样本的可用性有限,用于培训这些算法,妨碍他们在临床医生中更广泛的适用性,接受和识别。我们对最先进的自动质量控制(QC)方法进行了分析,可以在这些算法中实现,以估计其输出的确定性。我们验证了识别磁共振成像数据中的白质超收缩性(WMH)的大脑图像分割任务上最有前途的方法。 WMH是在上层前期成年中常见的小血管疾病的关联,并且由于其变化的尺寸和分布模式而尤其具有挑战性。我们的研究结果表明,不确定度和骰子预测的聚集在此任务的故障检测中最有效。两种方法在0.82至0.84的情况下独立改善平均骰子。我们的工作揭示了QC方法如何有助于检测失败的分割案例,从而使自动分割更可靠,适合临床实践。
translated by 谷歌翻译
检测新的多发性硬化症(MS)病变是该疾病进化的重要标志。基于学习的方法的适用性可以有效地自动化此任务。然而,缺乏带有新型病变的注释纵向数据是训练健壮和概括模型的限制因素。在这项工作中,我们描述了一条基于学习的管道,该管道解决了检测和细分新MS病变的挑战性任务。首先,我们建议使用单个时间点对在分割任务进行训练的模型中使用转移学习。因此,我们从更轻松的任务中利用知识,并为此提供更多注释的数据集。其次,我们提出了一种数据综合策略,以使用单个时间点扫描生成新的纵向时间点。通过这种方式,我们将检测模型预算到大型合成注释数据集上。最后,我们使用旨在模拟MRI中数据多样性的数据实践技术。通过这样做,我们增加了可用的小注释纵向数据集的大小。我们的消融研究表明,每个贡献都会提高分割精度。使用拟议的管道,我们获得了MSSEG2 MICCAI挑战中新的MS病变的分割和检测的最佳分数。
translated by 谷歌翻译
事实证明,深度卷积神经网络在语义分割任务中非常有效。引入了最流行的损失功能,以提高体积分数,例如Sorensen骰子系数。根据设计,DSC可以解决类不平衡;但是,它不能识别类中的实例不平衡。结果,大型前景实例可以主导次要实例,并且仍然产生令人满意的Sorensen骰子系数。然而,错过实例将导致检测性能不佳。这代表了诸如疾病进展监测等应用中的一个关键问题。例如,必须在多发性硬化症患者的随访中定位和监视小规模病变。我们提出了一个新型的损失功能家族,绰号斑点损失,主要旨在最大化实例级检测指标,例如F1得分和灵敏度。 BLOB损失是针对语义分割问题而设计的,其中实例是类中连接的组件。我们在五个复杂的3D语义分割任务中广泛评估了基于DSC的斑点损失,这些任务具有明显的实例异质性,从纹理和形态上讲。与软骰子损失相比,我们的MS病变改善了5%,肝肿瘤改善了3%,考虑F1分数的显微镜细分任务平均提高了2%。
translated by 谷歌翻译
在胸部计算机断层扫描(CT)扫描中,自动分割地面玻璃的不透明和固结可以在高资源利用时期减轻放射科医生的负担。但是,由于分布(OOD)数据默默失败,深度学习模型在临床常规中不受信任。我们提出了一种轻巧的OOD检测方法,该方法利用特征空间中的Mahalanobis距离,并无缝集成到最新的分割管道中。简单的方法甚至可以增加具有临床相关的不确定性定量的预训练模型。我们在四个胸部CT分布偏移和两个磁共振成像应用中验证我们的方法,即海马和前列腺的分割。我们的结果表明,所提出的方法在所有探索场景中有效地检测到遥远和近型样品。
translated by 谷歌翻译
前列腺癌是男性癌症死亡的最常见原因之一。对非侵入性和准确诊断方法的需求不断增长,促进目前在临床实践中的标准前列腺癌风险评估。尽管如此,从多游幂磁共振图像中开发前列腺癌诊断中的计算机辅助癌症诊断仍然是一个挑战。在这项工作中,我们提出了一种新的深度学习方法,可以通过构建两阶段多数量多流卷积神经网络(CNN)基于架构架构的相应磁共振图像中的前列腺病变自动分类。在不实现复杂的图像预处理步骤或第三方软件的情况下,我们的框架在接收器操作特性(ROC)曲线值为0.87的接收器下实现了该区域的分类性能。结果表现出大部分提交的方法,并分享了普罗妥克斯挑战组织者报告的最高价值。我们拟议的基于CNN的框架反映了辅助前列腺癌中的医学图像解释并减少不必要的活组织检查的可能性。
translated by 谷歌翻译
医学图像分割模型的性能指标用于衡量参考注释和预测之间的一致性。在开发此类模型中,使用了一组通用指标,以使结果更具可比性。但是,公共数据集中的分布与临床实践中遇到的案例之间存在不匹配。许多常见的指标无法衡量这种不匹配的影响,尤其是对于包含不确定,小或空参考注释的临床数据集。因此,可能无法通过此类指标来验证模型在临床上有意义的一致性。评估临床价值的维度包括独立于参考注释量的大小,考虑参考注释的不确定性,体积计和/或位置一致性的奖励以及对空参考注释正确分类的奖励。与普通的公共数据集不同,我们的内部数据集更具代表性。它包含不确定的,小或空的参考注释。我们研究了有关深度学习框架的预测的公开度量指标,以确定哪些设置共同指标可提供有意义的结果。我们将公共基准数据集进行比较而没有不确定,小或空参考注释。该代码将发布。
translated by 谷歌翻译
骰子相似度系数(DSC)是由于其鲁棒性对类不平衡的鲁造性而广泛使用的度量和损耗函数。然而,众所周知,DSC损失差异很差,导致在生物医学和临床实践中不能有效地解释的过度自信预测。性能通常是唯一用于评估深度神经网络产生的分段的指标,并且通常忽略校准。然而,校准对于译成生物医学和临床实践是重要的,为科学家和临床医生的解释提供了重要的语境信息。在这项研究中,我们将校准差,作为基于深度学习的生物医学图像分割的新出现挑战。我们提供了一个简单而有效的DSC丢失延伸,命名为DSC ++丢失,可选择地调制与过于自信,不正确的预测相关的罚款。作为独立损失功能,DSC ++损耗达到了在五个良好验证的开源生物医学成像数据集中对传统DSC损耗的显着提高了校准。同样,当将DSC ++丢失集成到基于四个DSC的损耗函数时,我们观察到显着改善。最后,我们使用SoftMax阈值化来说明校准的输出能够剪裁精度召回偏差,这是一种适应模型预测以适应生物医学或临床任务的重要的后处理技术。 DSC ++损失克服了DSC的主要限制,为训练生物医学和临床实践中使用的深度学习分段模型提供了合适的损耗功能。
translated by 谷歌翻译
多参数磁共振成像(MPMRI)在检测前列腺癌病变中的作用越来越大。因此,解释这些扫描的医学专业人员通过使用计算机辅助检测系统来减少人为错误的风险。但是,系统实施中使用的各种算法产生了不同的结果。在这里,我们研究了每个前列腺区域的最佳机器学习分类器。我们还发现了明显的功能,以阐明模型的分类原理。在提供的数据中,我们收集并增强了T2加权图像和明显的扩散系数MAP图像,以首先通过三阶统计特征提取作为机器学习分类器的输入。对于我们的深度学习分类器,我们使用卷积神经网(CNN)体系结构进行自动提取和分类。通过显着映射以了解内部的分类机制,可以改善CNN结果的可解释性。最终,我们得出的结论是,有效检测周围和前纤维肌间基质(AS)病变更多地取决于统计分布特征,而过渡区(TZ)的病变更多地取决于纹理特征。合奏算法最适合PZ和TZ区域,而CNN在AS区域中最好。这些分类器可用于验证放射科医生的预测,并减少怀疑患有前列腺癌的患者的阅读差异。还可以进一步研究这项研究中报告的显着特征,以更好地了解使用mpMRI的前列腺病变的隐藏特征和生物标志物。
translated by 谷歌翻译
目的:多发性硬化症(MS)是一种自身免疫和脱髓鞘疾病,导致中枢神经系统的病变。可以使用磁共振成像(MRI)跟踪和诊断该疾病。到目前为止,多数多层自动生物医学方法用于在成本,时间和可用性方面对患者没有有益的病变。本文的作者提出了一种使用只有一个模态(Flair Image)的方法,准确地将MS病变分段。方法:由3D-Reset和空间通道注意模块进行设计,灵活的基于补丁的卷积神经网络(CNN),以段MS病变。该方法由三个阶段组成:(1)对比度限制自适应直方图均衡(CLAHE)被施加到原始图像并连接到提取的边缘以形成4D图像; (2)尺寸80 * 80 * 80 * 2的贴片从4D图像中随机选择; (3)将提取的贴片传递到用于分割病变的关注的CNN中。最后,将所提出的方法与先前的相同数据集进行比较。结果:目前的研究评估了模型,具有测试集的ISIB挑战数据。实验结果表明,该方法在骰子相似性和绝对体积差方面显着超越了现有方法,而该方法仅使用一种模态(Flair)来分割病变。结论:作者推出了一种自动化的方法来分割基于最多两种方式作为输入的损伤。所提出的架构由卷积,解卷积和SCA-VOXRES模块作为注意模块组成。结果表明,所提出的方法优于与其他方法相比良好。
translated by 谷歌翻译
The clinical interest is often to measure the volume of a structure, which is typically derived from a segmentation. In order to evaluate and compare segmentation methods, the similarity between a segmentation and a predefined ground truth is measured using popular discrete metrics, such as the Dice score. Recent segmentation methods use a differentiable surrogate metric, such as soft Dice, as part of the loss function during the learning phase. In this work, we first briefly describe how to derive volume estimates from a segmentation that is, potentially, inherently uncertain or ambiguous. This is followed by a theoretical analysis and an experimental validation linking the inherent uncertainty to common loss functions for training CNNs, namely cross-entropy and soft Dice. We find that, even though soft Dice optimization leads to an improved performance with respect to the Dice score and other measures, it may introduce a volume bias for tasks with high inherent uncertainty. These findings indicate some of the method's clinical limitations and suggest doing a closer ad-hoc volume analysis with an optional re-calibration step.
translated by 谷歌翻译