神经网络在许多医学成像任务中都取得了令人印象深刻的结果,但在源自不同医疗中心或患者同类的分布数据集中通常会表现出色。评估这种缺乏概括和解决潜在问题的能力是开发旨在临床实践的神经网络的两个主要挑战。在这项研究中,我们开发了一种新方法,用于评估神经网络模型通过生成大量分配移位数据集的概括能力,可用于彻底研究其对临床实践中遇到的可变性的鲁棒性。与外部验证相比,\ textit {移位评估}可以提供有关为什么在给定数据集上神经网络失败的解释,从而为如何改善模型鲁棒性提供指导。随着评估的转变,我们证明了接受最先进方法训练的神经网络对于甚至从训练数据中的分配很小的转移而高度脆弱,并且在某些情况下会失去所有歧视能力。为了解决这一脆弱性,我们制定了一种增强策略,该策略明确旨在提高神经网络对分配转移的稳健性。 \ texttt {strongaugment}通过大规模的,异构的组织病理学数据进行评估,其中包括来自两种组织类型的五个培训数据集,274个分配切换的数据集和来自四个国家 /地区的20个外部数据集。接受\ texttt {strongaugment}培训的神经网络在所有数据集上都保持相似的性能,即使通过分配变化,使用当前最新方法训练的网络将失去所有歧视能力。我们建议使用强大的增强和转移评估来训练和评估所有用于临床实践的神经网络。
translated by 谷歌翻译