The advance of computer-aided detection systems using deep learning opened a new scope in endoscopic image analysis. However, the learning-based models developed on closed datasets are susceptible to unknown anomalies in complex clinical environments. In particular, the high false positive rate of polyp detection remains a major challenge in clinical practice. In this work, we release the FPPD-13 dataset, which provides a taxonomy and real-world cases of typical false positives during computer-aided polyp detection in real-world colonoscopy. We further propose a post-hoc module EndoBoost, which can be plugged into generic polyp detection models to filter out false positive predictions. This is realized by generative learning of the polyp manifold with normalizing flows and rejecting false positives through density estimation. Compared to supervised classification, this anomaly detection paradigm achieves better data efficiency and robustness in open-world settings. Extensive experiments demonstrate a promising false positive suppression in both retrospective and prospective validation. In addition, the released dataset can be used to perform 'stress' tests on established detection systems and encourages further research toward robust and reliable computer-aided endoscopic image analysis. The dataset and code will be publicly available at http://endoboost.miccai.cloud.
translated by 谷歌翻译
Although weakly-supervised techniques can reduce the labeling effort, it is unclear whether a saliency model trained with weakly-supervised data (e.g., point annotation) can achieve the equivalent performance of its fully-supervised version. This paper attempts to answer this unexplored question by proving a hypothesis: there is a point-labeled dataset where saliency models trained on it can achieve equivalent performance when trained on the densely annotated dataset. To prove this conjecture, we proposed a novel yet effective adversarial trajectory-ensemble active learning (ATAL). Our contributions are three-fold: 1) Our proposed adversarial attack triggering uncertainty can conquer the overconfidence of existing active learning methods and accurately locate these uncertain pixels. {2)} Our proposed trajectory-ensemble uncertainty estimation method maintains the advantages of the ensemble networks while significantly reducing the computational cost. {3)} Our proposed relationship-aware diversity sampling algorithm can conquer oversampling while boosting performance. Experimental results show that our ATAL can find such a point-labeled dataset, where a saliency model trained on it obtained $97\%$ -- $99\%$ performance of its fully-supervised version with only ten annotated points per image.
translated by 谷歌翻译
Automated detecting lung infections from computed tomography (CT) data plays an important role for combating COVID-19. However, there are still some challenges for developing AI system. 1) Most current COVID-19 infection segmentation methods mainly relied on 2D CT images, which lack 3D sequential constraint. 2) Existing 3D CT segmentation methods focus on single-scale representations, which do not achieve the multiple level receptive field sizes on 3D volume. 3) The emergent breaking out of COVID-19 makes it hard to annotate sufficient CT volumes for training deep model. To address these issues, we first build a multiple dimensional-attention convolutional neural network (MDA-CNN) to aggregate multi-scale information along different dimension of input feature maps and impose supervision on multiple predictions from different CNN layers. Second, we assign this MDA-CNN as a basic network into a novel dual multi-scale mean teacher network (DM${^2}$T-Net) for semi-supervised COVID-19 lung infection segmentation on CT volumes by leveraging unlabeled data and exploring the multi-scale information. Our DM${^2}$T-Net encourages multiple predictions at different CNN layers from the student and teacher networks to be consistent for computing a multi-scale consistency loss on unlabeled data, which is then added to the supervised loss on the labeled data from multiple predictions of MDA-CNN. Third, we collect two COVID-19 segmentation datasets to evaluate our method. The experimental results show that our network consistently outperforms the compared state-of-the-art methods.
translated by 谷歌翻译
隐式神经表示显示了3D场景重建的有希望的潜力。最近的工作将其应用于自主3D重建,通过学习信息获得图路径计划的信息增益。有效,信息增益的计算很昂贵,并且与使用体积表示相比,使用隐式表示为3D点进行碰撞检查要慢得多。在本文中,我们建议1)利用神经网络作为信息增益场的隐式函数近似器,以及2)将隐式细粒表示与粗量表示形式结合起来,以提高效率。随着效率的提高,我们提出了基于基于图的计划者的新型信息路径计划。我们的方法表明,与具有隐性和明确表示的自主重建相比,重建质量和计划效率的显着提高。我们将该方法部署在真正的无人机上,结果表明我们的方法可以计划信息意见并以高质量重建场景。
translated by 谷歌翻译
复杂的流量分析,例如加密的流量分析和未知的恶意软件检测,强调需要进行高级方法来分析网络流量。使用固定模式,签名匹配和检测网络流量中已知模式的规则的传统方法已被AI(人工智能)驱动算法取代。但是,缺乏高性能AI网络特定的框架使得不可能在网络工作负载中部署基于AI的实时处理。在本文中,我们描述了流量分析开发工具包(TADK)的设计,这是一个针对基于AI的网络工作负载处理的行业标准框架。 TADK可以在数据中心到边缘的网络设备中基于实时的AI网络工作负载处理,而无需专门硬件(例如GPU,神经处理单元等)。我们已经在商品WAF和5G UPF中部署了TADK,评估结果表明,Tadk可以在流量功能提取时达到每个核心最多35.3Gbps的吞吐量,每核6.5Gbps在流量分类中,并且可以减少SQLI/XSS检测到下降至4.5us每个请求的精度比固定模式解决方案更高。
translated by 谷歌翻译
深层模型的概率校准是在安全至关重要的应用(例如医学成像)中非常可取的。它通过将预测概率与测试数据中的实际准确性对齐,使深网的输出概率可解释。在图像分割中,精心校准的概率使放射科医生可以识别模型预测的分割不可靠的区域。这些不可靠的预测通常是由成像伪影或看不见的成像协议引起的室外(OOD)图像。不幸的是,大多数用于图像分割的先前校准方法在OOD图像上表现出色。为了减少面对OOD图像的校准误差,我们提出了一个新型的事后校准模型。我们的模型利用当地级别的扰动的像素敏感性以及在全球层面的形状先验信息。该模型在心脏MRI分割数据集上进行了测试,这些数据集包含来自看不见的成像协议中看不见的成像伪像和图像。与最新的校准算法相比,我们证明了校准误差减少。
translated by 谷歌翻译
在本文中,我们提出了与IEEE计算机协会在CVPR 2022上同时与IEEE计算机协会研讨会同时举行的多手术检测挑战。我们的多手术检测挑战旨在检测自动图像操作,包括但不限于图像编辑,图像合成,图像合成,图像,图像,图像,图像合成,图像,图像编辑一代,图像Photoshop等。我们的挑战吸引了来自世界各地的674支团队,约有2000个有效的结果提交数量。我们邀请了前十支球队为挑战提供解决方案,其中三支球队在大结局中获得了奖项。在本文中,我们介绍了前三名团队的解决方案,以增强图像伪造检测领域的研究工作。
translated by 谷歌翻译
多模式面向任务的对话框系统的文本响应生成旨在在给定多模式上下文的情况下生成适当的文本响应,这是一项必不可少但具有挑战性的任务。尽管现有的努力取得了令人信服的成功,但他们仍然遭受了两个关键的局限性:1)忽略生成预训练的好处,以及2)忽略与文本上下文相关的知识。为了解决这些局限性,我们为多模式的以任务为导向的对话框系统(DKMD)提出了一种新颖的双重知识增强的生成预验证的语言模型,由三个关键组成部分组成:双重知识选择,双重知识增强上下文上下文学习和知识增强的响应响应一代。具体来说,双重知识选择组件旨在根据给定上下文的文本和视觉方式选择相关的知识。此后,双重知识增强的上下文学习组件是从全球和局部观点上都无缝地将所选知识整合到多模式上下文的学习中,并探索了跨模式的语义关系。此外,知识增强的响应生成部分包括经过修订的Bart解码器,其中引入了其他点产品知识折线,以明确利用知识来推进文本响应生成。公共数据集的广泛实验验证了拟议的DKMD优于最先进的竞争对手。
translated by 谷歌翻译
可靠的结肠镜检查图像自动分类对于评估结肠病变阶段和制定适当的治疗计划具有重要意义。但是,由于亮度不平,位置可变性,类间的相似性和类内部差异,它影响了分类精度,因此具有挑战性。为了解决上述问题,我们在本研究中提出了一个基于傅立叶的频率复杂网络(FFCNET),用于结肠疾病分类。具体而言,FFCNET是一个新颖的复杂网络,可以使复杂的卷积网络与频率学习的结合,以克服由实际卷积操作引起的相位信息丢失。同样,我们的傅立叶变换会将图像的平均亮度传递到频谱中的一个点(DC组件)中,从而通过解耦图像含量和亮度来减轻亮度不均匀的影响。此外,FFCNET中的图像贴片争夺模块会生成随机的局部光谱块,使网络能够学习长期和局部疾病特定特征,并提高硬样品的判别能力。我们在具有2568个结肠镜检查图像的内部数据集上评估了所提出的FFCNET,这表明我们的方法实现了高性能的表现优于先前的最新方法,其准确性为86:35%,准确性高4.46%,高4.46%。具有代码的项目页面可在https://github.com/soleilssss/ffcnet上找到。
translated by 谷歌翻译
滴虫病是一种常见的传染病,由寄生虫毛trichomonas阴道引起,如果不加以治疗,则增加了在人类中艾滋病毒的风险。从微观图像中对阴道的自动检测可以提供至关重要的信息,以诊断滴虫病。然而,由于毛滴虫和其他细胞之间的高外观相似性(例如,白细胞),由于其运动性较大,而且缺乏较大的巨大的外观差异,因此精确的阴道分割(TVS)是一项艰巨的任务,这是一项具有挑战性的任务,最重要的是,最重要的是,其出现较大的外观变化。对深度模型培训的规模注释数据。为了应对这些挑战,我们精心阐述了第一个大规模的微观图像数据集,trichomonas vaginalis,名为TVMI3K,由3158张图像组成,涵盖了各种背景中的毛trichomonas,具有高质量的注释,包括对象层面标签,对象标签,对象,对象,对象,物体,物体,物体,物体标签,物体标签,物体标签,对象。边界和具有挑战性的属性。此外,我们提出了一个简单而有效的基线,称为TVNet,以自动从微观图像中分割毛刺,包括高分辨率融合和前景 - 背景的注意模块。广泛的实验表明,我们的模型实现了卓越的细分性能,并且在定量和定性上都超越了各种尖端的对象检测模型,这使其成为促进电视任务中未来研究的有希望的框架。数据集和结果将在:https://github.com/cellrecog/cellrecog上公开可用。
translated by 谷歌翻译