Extracting complex structures from grid-based data is a common key step in automated medical image analysis. The conventional solution to recovering tree-structured geometries typically involves computing the minimal cost path through intermediate representations derived from segmentation masks. However, this methodology has significant limitations in the context of projective imaging of tree-structured 3D anatomical data such as coronary arteries, since there are often overlapping branches in the 2D projection. In this work, we propose a novel approach to predicting tree connectivity structure which reformulates the task as an optimization problem over individual steps of a recursive process. We design and train a two-stage model which leverages the UNet and Transformer architectures and introduces an image-based prompting technique. Our proposed method achieves compelling results on a pair of synthetic datasets, and outperforms a shortest-path baseline.
translated by 谷歌翻译
Curriculum learning and self-paced learning are the training strategies that gradually feed the samples from easy to more complex. They have captivated increasing attention due to their excellent performance in robotic vision. Most recent works focus on designing curricula based on difficulty levels in input samples or smoothing the feature maps. However, smoothing labels to control the learning utility in a curriculum manner is still unexplored. In this work, we design a paced curriculum by label smoothing (P-CBLS) using paced learning with uniform label smoothing (ULS) for classification tasks and fuse uniform and spatially varying label smoothing (SVLS) for semantic segmentation tasks in a curriculum manner. In ULS and SVLS, a bigger smoothing factor value enforces a heavy smoothing penalty in the true label and limits learning less information. Therefore, we design the curriculum by label smoothing (CBLS). We set a bigger smoothing value at the beginning of training and gradually decreased it to zero to control the model learning utility from lower to higher. We also designed a confidence-aware pacing function and combined it with our CBLS to investigate the benefits of various curricula. The proposed techniques are validated on four robotic surgery datasets of multi-class, multi-label classification, captioning, and segmentation tasks. We also investigate the robustness of our method by corrupting validation data into different severity levels. Our extensive analysis shows that the proposed method improves prediction accuracy and robustness.
translated by 谷歌翻译
Background samples provide key contextual information for segmenting regions of interest (ROIs). However, they always cover a diverse set of structures, causing difficulties for the segmentation model to learn good decision boundaries with high sensitivity and precision. The issue concerns the highly heterogeneous nature of the background class, resulting in multi-modal distributions. Empirically, we find that neural networks trained with heterogeneous background struggle to map the corresponding contextual samples to compact clusters in feature space. As a result, the distribution over background logit activations may shift across the decision boundary, leading to systematic over-segmentation across different datasets and tasks. In this study, we propose context label learning (CoLab) to improve the context representations by decomposing the background class into several subclasses. Specifically, we train an auxiliary network as a task generator, along with the primary segmentation model, to automatically generate context labels that positively affect the ROI segmentation accuracy. Extensive experiments are conducted on several challenging segmentation tasks and datasets. The results demonstrate that CoLab can guide the segmentation model to map the logits of background samples away from the decision boundary, resulting in significantly improved segmentation accuracy. Code is available.
translated by 谷歌翻译
深度卷积神经网络在各种计算机视觉任务上表现出色,但是它们容易从训练信号中拾取虚假相关性。所谓的“快捷方式”可以在学习过程中发生,例如,当图像数据中存在特定频率与输出预测相关的特定频率时。高频和低频都可以是由图像采集引起的潜在噪声分布的特征,而不是与有关图像内容的任务相关信息。学习与此特征噪声相关的功能的模型不会很好地推广到新数据。在这项工作中,我们提出了一种简单而有效的训练策略,频率辍学,以防止卷积神经网络从学习频率特异性成像功能中。我们在训练过程中采用了特征图的随机过滤,该特征地图充当特征级别的正则化。在这项研究中,我们考虑了常见的图像处理过滤器,例如高斯平滑,高斯(Gaussian)的拉普拉斯(Laplacian)和Gabor过滤。我们的培训策略是模型不合时宜的,可用于任何计算机视觉任务。我们证明了使用计算机视觉和医学成像数据集在一系列流行架构和多个任务中的频率辍学的有效性。我们的结果表明,所提出的方法不仅提高了预测准确性,而且还提高了针对领域转移的鲁棒性。
translated by 谷歌翻译
基础模型在AI的所有应用中都被认为是一个突破性的突破性,有望进行功能提取的可重复使用的机制,从而减轻了对特定于任务的预测模型的大量高质量培训数据的需求。但是,基础模型可能可能编码甚至加强历史数据集中存在的现有偏见。鉴于仔细检查基础模型的能力有限,尚不清楚机会是否超过了临床决策等安全关键应用中的风险。在我们对最近发布且可公开可用的胸部X射线基础模型的统计偏差分析中,我们发现了关注的原因,因为该模型似乎编码了受保护特征,包括生物学性别和种族认同,这可能会导致下游亚组的各个子群体不同申请。尽管针对医疗保健应用的基础模型的研究处于早期阶段,但我们认为,让社区意识到这些风险以避免伤害很重要。
translated by 谷歌翻译
因果推理提供了一种语言,以提出纯粹统计关联以外的重要介入和反事实问题。例如,在医学成像中,我们可能希望研究遗传,环境或生活方式因素对解剖表型正常和病理变异的因果关系。但是,尽管可以可靠地构建从自动图像分割中提取的3D表面网格的解剖形状模型,但缺乏计算工具来实现有关形态变化的因果推理。为了解决这个问题,我们提出了深层结构性因果形状模型(CSM),该模型利用了高质量的网格生成技术,从几何深度学习,在深层结构性因果模型的表达框架内。 CSM可以通过反事实网格产生来实现特定于受试者的预后(“如果患者大十岁,该患者的大脑结构将如何变化?”),这与大多数当前有关纯粹人口级统计形状建模的作品形成鲜明对比。我们通过许多定性和定量实验利用了3D脑结构的大数据集,证明了Pearl因果关系层次结构的所有级别CSM的能力。
translated by 谷歌翻译
对脑外伤(TBI)患者的准确预后很难为治疗,患者管理和长期护理提供信息至关重要。年龄,运动和学生反应性,缺氧和低血压以及计算机断层扫描(CT)的放射学发现等患者特征已被确定为TBI结果预测的重要变量。 CT是临床实践中选择的急性成像方式,因为其获取速度和广泛的可用性。但是,这种方式主要用于定性和半定量评估,例如马歇尔评分系统,该系统容易受到主观性和人为错误。这项工作探讨了使用最先进的,深度学习的TBI病变分割方法从常规获得的医院入院CT扫描中提取的成像生物标志物的预测能力。我们使用病变体积和相应的病变统计作为扩展TBI结果预测模型的输入。我们将我们提出的功能的预测能力与马歇尔分数进行比较,并与经典的TBI生物标志物配对。我们发现,在预测不利的TBI结果时,自动提取的定量CT功能的性能与Marshall分数相似或更好。利用自动地图集对齐,我们还确定额叶外病变是不良预后的重要指标。我们的工作可能有助于更好地理解TBI,并提供有关如何使用自动化神经影像分析来改善TBI后预测的新见解。
translated by 谷歌翻译
机器学习模型通常部署在与训练设置不同的测试设置中,可能会导致由于域移动而导致模型性能下降。如果我们可以估计预先训练的模型将在特定部署设置(例如某个诊所)上实现的性能,我们可以判断该模型是否可以安全部署,或者其性能是否在特定数据上不可接受。现有方法基于对部署域中未标记的测试数据的预测信心进行估算。我们发现现有的方法与呈现阶级失衡的数据困难,因为用于校准置信度的方法不会考虑阶级不平衡引起的偏见,因此未能估算阶级的准确性。在这里,我们在不平衡数据集的性能估计框架内介绍了班级校准。具体而言,我们得出了基于最新置信度的模型评估方法(包括温度缩放(TS),信心差异(DOC)和平均阈值置信度(A​​TC))的最新置信度评估方法的特定于类的修改。我们还将方法扩展到图像分割中的骰子相似性系数(DSC)。我们对四个任务进行实验,并找到所提出的修改一致提高了数据集的估计精度。与先前方法相比,我们的方法在自然域移动下的分类中提高了准确性估计,在自然域移动下的分类中提高了18 \%的估计精度。
translated by 谷歌翻译
分割模型在医疗域中的可靠性取决于模型对输入空间中扰动的鲁棒性。鲁棒性是在医学成像中的特殊挑战,展示了各种图像噪声,腐败和域转移的来源。通常通过模拟异质环境来尝试获得鲁棒性,要么以数据增强的形式进行启发,要么通过学习以对抗性方式产生特定的扰动。我们提出并证明在低维嵌入空间中学习离散表示可以改善分割模型的鲁棒性。这是通过称为矢量定量的字典学习方法来实现的。我们使用一组设计的实验来分析域移位和输入空间中的噪声扰动下的潜在和输出空间的鲁棒性。我们适应流行的UNET架构,在瓶颈中插入一个定量块。我们证明了在三个分割任务上的分段准确性和更好的鲁棒性。代码可在\ url {https://github.com/ainkaransanthi/vector-quantisation-for-robust-mentegation}中获得。
translated by 谷歌翻译
当前的大多数解释性技术都集中在捕获输入空间中特征的重要性。但是,鉴于模型和数据生成过程的复杂性,由此产生的解释远非“完整”,因为它们缺乏特征相互作用和可视化其“效应”的指示。在这项工作中,我们提出了一个新颖的双流式解释性框架,以解释任何基于CNN的图像分类器(架构不考虑)做出的决定。为此,我们首先将潜在特征从分类器中解开,然后将这些功能与观察到的/人为定义的“上下文”功能保持一致。这些对齐特征形成了具有语义上有意义的概念,用于提取描述“感知”数据生成过程的因果图,描述了未观察到的潜在特征和观察到的“上下文”特征之间的功能间和内部内部和内部内部相互作用。该因果图是一个全局模型,可以从中提取不同形式的局部解释。具体而言,我们提供了一个生成器来可视化潜在空间中特征之间交互的“效果”,并从其作为局部解释中提取特征的重要性。我们的框架利用对抗性知识蒸馏来忠实地从分类器的潜在空间中学习表示形式,并将其用于提取视觉解释。我们使用带有附加正规化术语的stylegan-v2体系结构来执行分解和对齐。我们证明并评估了通过关于Morpho-Mnist和FFHQ人脸数据集获得的解释。我们的框架可在\ url {https://github.com/koriavinash1/glance-explanations}上获得。
translated by 谷歌翻译