In dense image segmentation tasks (e.g., semantic, panoptic), existing methods can hardly generalize well to unseen image domains, predefined classes, and image resolution & quality variations. Motivated by these observations, we construct a large-scale entity segmentation dataset to explore fine-grained entity segmentation, with a strong focus on open-world and high-quality dense segmentation. The dataset contains images spanning diverse image domains and resolutions, along with high-quality mask annotations for training and testing. Given the high-quality and -resolution nature of the dataset, we propose CropFormer for high-quality segmentation, which can improve mask prediction using high-res image crops that provide more fine-grained image details than the full image. CropFormer is the first query-based Transformer architecture that can effectively ensemble mask predictions from multiple image crops, by learning queries that can associate the same entities across the full image and its crop. With CropFormer, we achieve a significant AP gain of $1.9$ on the challenging fine-grained entity segmentation task. The dataset and code will be released at http://luqi.info/entityv2.github.io/.
translated by 谷歌翻译
This paper focuses on the task of survival time analysis for lung cancer. Although much progress has been made in this problem in recent years, the performance of existing methods is still far from satisfactory. Traditional and some deep learning-based survival time analyses for lung cancer are mostly based on textual clinical information such as staging, age, histology, etc. Unlike existing methods that predicting on the single modality, we observe that a human clinician usually takes multimodal data such as text clinical data and visual scans to estimate survival time. Motivated by this, in this work, we contribute a smart cross-modality network for survival analysis network named Lite-ProSENet that simulates a human's manner of decision making. Extensive experiments were conducted using data from 422 NSCLC patients from The Cancer Imaging Archive (TCIA). The results show that our Lite-ProSENet outperforms favorably again all comparison methods and achieves the new state of the art with the 89.3% on concordance. The code will be made publicly available.
translated by 谷歌翻译
扩散MRI拖拉术是一种先进的成像技术,可实现大脑白质连接的体内映射。白质拟层将拖拉机分类为簇或解剖学上有意义的区域。它可以量化和可视化全脑拖拉学。当前,大多数拟层方法都集中在深白质(DWM)上,而由于其复杂性,更少的方法解决了浅表白质(SWM)。我们提出了一种新型的两阶段深度学习的框架,即浅表白质分析(SUPWMA​​),该框架对全脑拖拉机的198个SWM簇进行了有效且一致的分析。一个基于点云的网络适应了我们的SWM分析任务,并且监督的对比度学习可以在SWM的合理流线和离群值之间进行更多的歧视性表示。我们在大规模拖拉机数据集上训练模型,包括来自标签的SWM簇和解剖学上难以置信的流线样本的简化样品,我们对六个不同年龄和健康状况的独立获取的数据集进行测试(包括新生儿和具有空间型脑肿瘤的患者) )。与几种最先进的方法相比,SupWMA在所有数据集上获得了高度一致,准确的SWM分析结果,在整个健康和疾病的寿命中都良好的概括。另外,SUPWMA​​的计算速度比其他方法快得多。
translated by 谷歌翻译
白质图微观结构已显示出影响认知表现的神经心理学评分。但是,尚未尝试从白质图数据中预测这些分数。在本文中,我们提出了一个基于深度学习的框架,用于使用从扩散磁共振成像(DMRI)片段估计的微观结构测量结果进行神经心理学评分的预测,该框架的重点是基于接受语言的关键纤维纤维小道的接受性词汇评估任务的性能弓形筋膜(AF)。我们直接利用来自纤维道中所有点的信息,而无需按照传统上沿着光纤的平均数据进行扩散MRI Tractometry方法所要求的。具体而言,我们将AF表示为点云,每个点都有微观结构测量,从而可以采用基于点的神经网络。我们通过拟议的配对 - 塞亚姆损失来改善预测性能,该损失利用了有关连续神经心理学评分之间差异的信息。最后,我们提出了一种关键区域定位(CRL)算法来定位包含对预测结果有很大贡献的点的信息解剖区域。我们的方法对来自人类Connectome项目数据集的806名受试者的数据进行了评估。结果表明,与基线方法相比,神经心理评分的预测表现优异。我们发现,AF中的关键区域在受试者之间非常一致,额叶皮质区域的强大贡献最多(即,尾部中间额叶,pars opercularis和pars triangularis)与关键区域有着强烈的影响用于语言过程。
translated by 谷歌翻译
白质纤维聚类(WMFC)是白质细胞的重要策略,可以对健康和疾病中的白质连接进行定量分析。 WMFC通常以无监督的方式进行,而无需标记地面真相数据。尽管广泛使用的WMFC方法使用经典的机器学习技术显示出良好的性能,但深度学习的最新进展揭示了朝着快速有效的WMFC方向发展。在这项工作中,我们为WMFC,深纤维聚类(DFC)提出了一个新颖的深度学习框架,该框架解决了无监督的聚类问题,作为具有特定领域的借口任务,以预测成对的光纤距离。这使纤维表示能够在WMFC中学习已知的挑战,即聚类的敏感性对沿纤维的点排序的敏感性。我们设计了一种新颖的网络体系结构,该网络体系结构代表输入纤维作为点云,并允许从灰质拟合中纳入其他输入信息来源。因此,DFC利用有关白质纤维几何形状和灰质解剖结构的组合信息来改善纤维簇的解剖相干性。此外,DFC通过拒绝簇分配概率低的纤维来以自然方式进行异常去除。我们评估了三个独立获取的队列的DFC,包括来自220名性别,年龄(年轻和老年人)的220名个人的数据,以及不同的健康状况(健康对照和多种神经精神疾病)。我们将DFC与几种最先进的WMFC算法进行比较。实验结果表明,DFC在集群紧凑,泛化能力,解剖相干性和计算效率方面的表现出色。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
无监督域适应(UDA)技术的最新进展在跨域计算机视觉任务中有巨大的成功,通过弥合域分布差距来增强数据驱动的深度学习架构的泛化能力。对于基于UDA的跨域对象检测方法,其中大多数通过对抗性学习策略引导域不变特征产生来缓解域偏差。然而,由于不稳定的对抗性培训过程,他们的域名鉴别器具有有限的分类能力。因此,它们引起的提取特征不能完全域不变,仍然包含域私有因素,使障碍物进一步缓解跨域差异。为了解决这个问题,我们设计一个域分离rcnn(DDF),以消除特定于检测任务学习的特定信息。我们的DDF方法促进了全局和本地阶段的功能解剖,分别具有全局三联脱离(GTD)模块和实例相似性解剖(ISD)模块。通过在四个基准UDA对象检测任务上表现出最先进的方法,对我们的DDF方法进行了宽阔的适用性。
translated by 谷歌翻译
我们提出寻找^ {\ PI},这是一种新的神经重新渲染方法,其目的是(1)实时提高人类性能捕获系统的低质量重建结果的渲染质量; (2)改善神经翻译网络对看不见的人的泛化能力。我们的主要思想是利用重建几何形象的渲染图像作为帮助预测来自少数参考图像的人特定细节的指导,从而增强重新呈现的结果。鉴于此,我们设计了一个双分支网络。粗略分支旨在修复一些工件(即孔,噪声)并获得渲染输入的粗版本,而详细分支旨在预测来自翘曲的参考的“正确”细节。通过在细节分支的训练中有效地混合来自两个分支的特征来实现渲染图像的指导,这提高了翘曲准确性和细节的保真度。我们展示了我们的方法优于在看不见者上生产高保真图像的最先进的方法。
translated by 谷歌翻译
对于不同的任务,已经越来越多地研究了一般点云,并且提出了最近的基于变换器的网络,用于点云分析。然而,医疗点云几乎没有相关的作品,这对疾病检测和治疗很重要。在这项工作中,我们提出了专门用于医疗点云的关注模型,即3D医疗点变压器(3Dmedpt),以检查复杂的生物结构。通过增强上下文信息并在查询时总结本地响应,我们的注意模块可以捕获本地上下文和全局内容功能交互。然而,医疗数据的培训样本不足可能导致特征学习差,因此我们应用位置嵌入,以学习准确的局部几何和多图形推理(MGR)来检查通过通道图的全局知识传播,以丰富特征表示。在数据集内进行的实验证明了3DMedpt的优越性,在那里我们达到了最佳分类和分割结果。此外,我们的方法的有希望的泛化能力在一般的3D点云基准测试中验证:ModelNet40和ShapenetPart。代码即将发布。
translated by 谷歌翻译
尽管概念化已经在语义和知识表示中进行了广泛研究,但找到最准确的概念短语来表征在快速增长的社交媒体上表征文本片段的主要思想仍然具有挑战性。这部分归因于以下事实:大多数知识库都包含世界的一般术语,例如树木和汽车,它们没有定义的力量或对社交媒体应用程序用户不够有趣。另一个原因是,自然语言的复杂性允许使用时态,否定和语法改变语言的逻辑或重点,从而传达了完全不同的含义。在本文中,我们提出了标签,这是一个高质量的概念匹配的数据集,该数据集由10,000个标记的精细概念和网络风格的自然语言句子组成,并从开放域社交媒体中挖出。我们考虑的概念代表了在线用户的趋势兴趣。与标签相关的是这些细粒度概念和实体的概念图,以提供结构上下文信息。我们在标签上评估了广泛的流行神经文本匹配模型以及预先训练的语言模型,并指出他们以最合适的概念标记社交媒体内容的不足。我们进一步提出了一种新颖的图形匹配方法,该方法通过更好地利用概念图中的结构上下文和句子中语义单元之间的逻辑相互作用在句子中通过句法依赖性解析来展示出色的抽象和概括性能。我们开源标签数据集和提出进一步研究的建议方法。
translated by 谷歌翻译