The lack of efficient segmentation methods and fully-labeled datasets limits the comprehensive assessment of optical coherence tomography angiography (OCTA) microstructures like retinal vessel network (RVN) and foveal avascular zone (FAZ), which are of great value in ophthalmic and systematic diseases evaluation. Here, we introduce an innovative OCTA microstructure segmentation network (OMSN) by combining an encoder-decoder-based architecture with multi-scale skip connections and the split-attention-based residual network ResNeSt, paying specific attention to OCTA microstructural features while facilitating better model convergence and feature representations. The proposed OMSN achieves excellent single/multi-task performances for RVN or/and FAZ segmentation. Especially, the evaluation metrics on multi-task models outperform single-task models on the same dataset. On this basis, a fully annotated retinal OCTA segmentation (FAROS) dataset is constructed semi-automatically, filling the vacancy of a pixel-level fully-labeled OCTA dataset. OMSN multi-task segmentation model retrained with FAROS further certifies its outstanding accuracy for simultaneous RVN and FAZ segmentation.
translated by 谷歌翻译
Automatic diabetic retinopathy (DR) grading based on fundus photography has been widely explored to benefit the routine screening and early treatment. Existing researches generally focus on single-field fundus images, which have limited field of view for precise eye examinations. In clinical applications, ophthalmologists adopt two-field fundus photography as the dominating tool, where the information from each field (i.e.,macula-centric and optic disc-centric) is highly correlated and complementary, and benefits comprehensive decisions. However, automatic DR grading based on two-field fundus photography remains a challenging task due to the lack of publicly available datasets and effective fusion strategies. In this work, we first construct a new benchmark dataset (DRTiD) for DR grading, consisting of 3,100 two-field fundus images. To the best of our knowledge, it is the largest public DR dataset with diverse and high-quality two-field images. Then, we propose a novel DR grading approach, namely Cross-Field Transformer (CrossFiT), to capture the correspondence between two fields as well as the long-range spatial correlations within each field. Considering the inherent two-field geometric constraints, we particularly define aligned position embeddings to preserve relative consistent position in fundus. Besides, we perform masked cross-field attention during interaction to flter the noisy relations between fields. Extensive experiments on our DRTiD dataset and a public DeepDRiD dataset demonstrate the effectiveness of our CrossFiT network. The new dataset and the source code of CrossFiT will be publicly available at https://github.com/FDU-VTS/DRTiD.
translated by 谷歌翻译
在本文中,我们将解决方案介绍给Muse-Humor的多模式情感挑战(MUSE)2022的邮件,库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战,我们首先使用变压器模块和BilstM模块构建一个判别模型,然后提出一种混合融合策略,以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性,并且我们在测试集中提出的模型的AUC为0.8972。
translated by 谷歌翻译
人的大脑可以毫不费力地识别和定位对象,而基于激光雷达点云的当前3D对象检测方法仍然报告了较低的性能,以检测闭塞和远处的对象:点云的外观由于遮挡而变化很大,并且在沿线的固有差异沿点固有差异变化。传感器的距离。因此,设计功能表示对此类点云至关重要。受到人类联想识别的启发,我们提出了一个新颖的3D检测框架,该框架通过域的适应来使对象完整特征。我们弥合感知域之间的差距,其中特征是从具有亚最佳表示的真实场景中得出的,以及概念域,其中功能是从由不批准对象组成的增强场景中提取的,并具有丰富的详细信息。研究了一种可行的方法,可以在没有外部数据集的情况下构建概念场景。我们进一步介绍了一个基于注意力的重新加权模块,该模块可适应地增强更翔实区域的特征。该网络的功能增强能力将被利用,而无需在推理过程中引入额外的成本,这是各种3D检测框架中的插件。我们以准确性和速度都在Kitti 3D检测基准上实现了新的最先进性能。关于Nuscenes和Waymo数据集的实验也验证了我们方法的多功能性。
translated by 谷歌翻译
撞击(IS)和Impact-echo(IE)是发达的非破坏性评估(NDE)方法,这些方法被广泛用于检查混凝土结构以确保安全和可持续性。但是,这是一项繁琐的工作,沿着网格线的数据涵盖了较大的目标区域,以表征地下缺陷。另一方面,数据处理非常复杂,需要域专家解释结果。为了解决上述问题,我们提出了一个新型的机器人检查系统,称为Impact-Rover,以自动化数据收集过程并引入数据分析软件以可视化检查结果,从而使常规的非专业人士可以理解。该系统由三个模块组成:1)一个具有垂直移动性的机器人平台,即在难以到达位置的数据,2)基于视觉的定位模块,该模块将融合RGB-D摄像头,IMU和车轮编码器以估算机器人的6-DOF姿势,3)用于处理IS数据以生成缺陷图的数据分析软件模块。 Impact-Rover托管IE和是滑动机构上的设备,可以执行移动样本操作以在可调间距下收集多个IS和IE数据。机器人采取的样品比手动数据收集方法快得多,因为它会自动沿直线进行多个测量值并记录位置。本文着重于报告实验结果。我们计算特征,并使用无监督的学习方法来分析数据。通过将基于视觉的本地化模块和滑动机制的头部位置产生的姿势组合,我们可以生成可能的缺陷地图。混凝土板上的结果表明,我们听起来很撞击的系统可以有效揭示浅缺陷。
translated by 谷歌翻译
LIDC-IDRI数据库是肺癌预测的最流行的基准。但是,通过放射科医生的主观评估,LIDC中的结节可能与病理基础真理具有完全不同的恶性注释,从而引入了标签分配错误,并在培训期间引起了后续的监督偏见。因此,LIDC数据库需要更多的客观标签来基于学习的癌症预测。基于一个额外的小数据集,该数据集包含通过病理检查诊断的180个结节,我们建议重新标记LIDC数据,以减轻对此强大基准测试的原始注释偏差的影响。我们在本文中证明,基于度量学习的类似结节检索提供新标签将是一种有效的重新标记策略。对这些重新标记的LIDC结节进行的培训可改善模型性能,当添加不确定的结节的新标签时,这将增强。我们进一步推断出,重新标记的LIDC是最终的良好肺癌预测的方便方法,同时构建大型病理预处理的结节数据库提供了长期解决方案。
translated by 谷歌翻译
在标签噪声下训练深神网络的能力很有吸引力,因为不完美的注释数据相对便宜。最先进的方法基于半监督学习(SSL),该学习选择小损失示例为清洁,然后应用SSL技术来提高性能。但是,选择步骤主要提供一个中等大小的清洁子集,该子集可俯瞰丰富的干净样品。在这项工作中,我们提出了一个新颖的嘈杂标签学习框架Promix,试图最大程度地提高清洁样品的实用性以提高性能。我们方法的关键是,我们提出了一种匹配的高信心选择技术,该技术选择了那些具有很高置信的示例,并与给定标签进行了匹配的预测。结合小损失选择,我们的方法能够达到99.27的精度,并在检测CIFAR-10N数据集上的干净样品时召回98.22。基于如此大的清洁数据,Promix将最佳基线方法提高了CIFAR-10N的 +2.67%,而CIFAR-100N数据集则提高了 +1.61%。代码和数据可从https://github.com/justherozen/promix获得
translated by 谷歌翻译
本文提出了一种程式化的新型视图合成方法。将最新的风格化方法应用于新型视图框架上,通常由于缺乏跨视图一致性而引起抖动的伪像。因此,本文研究了3D场景样式,该风格为一致的新型视图综合提供了强烈的诱导偏置。具体而言,我们采用新兴的神经光辉领域(NERF)作为我们选择的3D场景表示,因为它们有能力为各种场景提供高质量的新颖观点。但是,由于从NERF呈现新颖的视图需要大量样品,因此训练风格化的NERF需要大量的GPU内存,这超出了现成的GPU容量。我们引入了一种新的培训方法,通过交替进行NERF和样式优化步骤来解决此问题。这样的方法使我们能够充分利用自己的硬件记忆能力以更高的分辨率生成图像,又采用更具表现力的图像样式传输方法。我们的实验表明,我们的方法生成了针对各种内容的风格化的NERF,包括室内,室外和动态场景,并综合具有跨视图一致性的高质量小说视图。
translated by 谷歌翻译
在本文中,我们提出了端到端的水疗形式,以从单个阴影图像中恢复无阴影的图像。与需要两个步骤进行阴影检测然后再删除阴影的传统方法不同,Spa-Former将这些步骤统一为一个,这是一个单阶段网络,能够直接学习阴影和无阴影之间的映射功能,不需要一个单独的阴影检测。因此,SPA形式适应于实际图像去阴影,以适应投影在不同语义区域上的阴影。SPA形式由变压器层和一系列关节傅立叶变压残留块和两轮关节空间注意力组成。本文中的网络能够在达到非常快速的处理效率的同时处理任务。我们的代码在https://github.com/ zhangbaijin/spatial-transformer-shadow-removal上重新发布
translated by 谷歌翻译
事实证明,丰富的用户行为数据对于点击率(CTR)预测应用程序具有很高的价值,尤其是在工业推荐,搜索或广告系统中。但是,由于在线服务时间的严格要求,现实世界系统不仅可以充分利用长期用户行为。大多数以前的作品都采用基于检索的策略,在此策略中,首先检索了少数用户行为以进行后续注意。但是,基于检索的方法是最佳的,会造成或多或少的信息损失,并且很难平衡检索算法的有效性和效率。在本文中,我们提出了SDIM(基于采样的深度兴趣建模),这是一种简单但有效的基于采样的端到端方法,用于建模长期用户行为。我们从多个哈希功能中采样,以生成候选项目和用户行为序列中的每个项目的哈希签名,并通过直接收集与具有相同哈希签名的候选项目相关的行为项来获得用户兴趣。我们在理论上和实验上表明,所提出的方法在基于标准的基于注意力的模型上对长期用户行为进行建模,同时更快。我们还介绍了系统中SDIM的部署。具体而言,我们通过设计一个名为BSE(行为序列编码)的单独模块(行为序列编码),将行为序列哈希(这是最耗时的部分)解脱出最耗时的部分。 BSE对于CTR服务器是无延迟的,使我们能够建模极长的用户行为。进行离线和在线实验,以证明SDIM的有效性。 SDIM现在已在线部署在Meituan应用程序的搜索系统中。
translated by 谷歌翻译