The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
功能提取器在文本识别(TR)中起着至关重要的作用,但是由于昂贵的手动调整,自定义其体系结构的探索相对较少。在这项工作中,受神经体系结构搜索(NAS)的成功启发,我们建议搜索合适的功能提取器。我们通过探索具有良好功能提取器的原理来设计特定于域的搜索空间。该空间包括用于空间模型的3D结构空间和顺序模型的基于转换的空间。由于该空间是巨大且结构复杂的,因此无法应用现有的NAS算法。我们提出了一种两阶段算法,以有效地在空间中进行搜索。在第一阶段,我们将空间切成几个块,并借助辅助头逐步训练每个块。我们将延迟约束引入第二阶段,并通过自然梯度下降从受过训练的超级网络搜索子网络。在实验中,进行了一系列消融研究,以更好地了解设计的空间,搜索算法和搜索架构。我们还将所提出的方法与手写和场景TR任务上的各种最新方法进行了比较。广泛的结果表明,我们的方法可以以较小的延迟获得更好的识别性能。
translated by 谷歌翻译
这里介绍了人工智能研究所(IARAI)组织的2022年Landslide4sense(L4S)竞赛的科学结果。竞争的目的是根据全球收集的卫星图像的大规模多个来源自动检测滑坡。 2022 L4S旨在促进有关使用卫星图像的语义分割任务的深度学习模型(DL)模型最新发展的跨学科研究。在过去的几年中,由于卷积神经网络(CNN)的发展,基于DL的模型已经达到了对图像解释的期望。本文的主要目的是介绍本次比赛中介绍的细节和表现最佳的算法。获胜的解决方案详细介绍了Swin Transformer,Segformer和U-NET等最先进的模型。还考虑了先进的机器学习技术和诸如硬采矿,自我培训和混合数据增强之类的策略。此外,我们描述了L4S基准数据集,以促进进一步的比较,并在线报告准确性评估的结果。可以在\ textIt {未来开发排行榜上访问数据,以供将来评估,\ url {https://www.iarai.ac.ac.at/landslide4sense/challenge/},并邀请研究人员提交更多预测结果,评估准确性在他们的方法中,将它们与其他用户的方法进行比较,理想情况下,改善了本文报告的滑坡检测结果。
translated by 谷歌翻译
艺术文本识别是一项极具挑战性的任务,具有广泛的应用程序。但是,当前场景文本识别方法主要集中于不规则文本,而未专门探讨艺术文本。艺术文本识别的挑战包括具有特殊设计的字体和效果的各种外观,字符之间的复杂连接和重叠以及背景模式的严重干扰。为了减轻这些问题,我们建议在三个层面上识别艺术文本。首先,考虑到角结构对外观和形状的稳健性,使用角点指导角色内部特征的提取。通过这种方式,角点的离散性切断了字符之间的连接,它们的稀疏性改善了背景干扰的稳健性。其次,我们设计了一个字符对比损失,以模拟字符级别的特征,从而改善了字符分类的特征表示。第三,我们利用变形金刚在图像级别上学习全局功能,并在角落跨注意机制的帮助下对角点的全球关系进行建模。此外,我们提供了一个艺术文本数据集来基准表演。实验结果验证了我们提出的方法在艺术文本识别方面的显着优势,并在几个模糊和透视数据集上实现了最先进的性能。
translated by 谷歌翻译
文本检测和识别是现代OCR系统的重要组成部分。大多数OCR方法试图在检测阶段获得准确的文本框,该框架用作文本识别阶段的输入。我们观察到,当使用紧密的文本边界框作为输入时,由于边界框之间的不一致和文本识别的深度表示,文本识别器通常无法实现最佳性能。在本文中,我们提出了Box调节器,这是一种基于增强学习的方法,用于调整每个文本边界框的形状,以使其与文本识别模型更兼容。此外,在处理诸如合成对现实之类的跨域问题时,所提出的方法可显着降低源和目标域之间域分布的不匹配。实验表明,当使用调整后的边界框作为训练的基础真相时,端到端文本识别系统的性能可以得到改善。具体而言,在几个基准数据集以用于场景文本理解上,拟议的方法在端到端文本识别任务上平均比最先进的文本togpters的f得分为2.0%,而域上的F-评分为4.6%。适应任务。
translated by 谷歌翻译
最近,大多数手写的数学表达识别(HMER)方法采用编码器 - 编码器网络,该网络直接从具有注意机制的公式图像中直接预测标记序列。但是,此类方法可能无法准确读取具有复杂结构的公式或生成长的标记序列,因为由于写作样式或空间布局的差异很大,注意结果通常是不准确的。为了减轻此问题,我们为HMER提出了一个名为Counting-Aware-Aware网络(CAN)的非常规网络,该网络共同优化了两个任务:HMER和符号计数。具体而言,我们设计了一个弱监督的计数模块,该模块可以预测每个符号类的数量,而无需符号级别的位置注释,然后将其插入HMER的典型基于注意力的编码器模型。在基准数据集上进行的实验验证了关节优化和计数结果既有益于纠正编码器模型的预测误差,又可以始终如一地胜过最先进的方法。特别是,与HMER的编码器模型相比,提议的计数模块引起的额外时间成本是边缘的。源代码可从https://github.com/lbh1024/can获得。
translated by 谷歌翻译
近年来,视频实例细分(VIS)在很大程度上是通过离线模型提出的,而在线模型由于其性能较低而逐渐吸引了关注。但是,在线方法在处理长期视频序列和正在进行的视频中具有固有的优势,而由于计算资源的限制,离线模型失败了。因此,如果在线模型可以比离线模型获得可比甚至更好的性能,那将是非常可取的。通过解剖当前的在线模型和离线模型,我们证明了性能差距的主要原因是由特征空间中不同实例之间相似外观引起的框架之间存在错误的关联。观察到这一点,我们提出了一个基于对比度学习的在线框架,该框架能够学习更多的歧视实例嵌入,以进行关联,并充分利用历史信息以达到稳定性。尽管它很简单,但我们的方法在三个基准测试上都优于在线和离线方法。具体来说,我们在YouTube-VIS 2019上实现了49.5 AP,比先前的在线和离线艺术分别取得了13.2 AP和2.1 AP的显着改善。此外,我们在OVIS上实现了30.2 AP,这是一个更具挑战性的数据集,具有大量的拥挤和遮挡,超过了14.8 AP的先前艺术。提出的方法在第四次大规模视频对象分割挑战(CVPR2022)的视频实例细分轨道中赢得了第一名。我们希望我们方法的简单性和有效性以及对当前方法的见解,可以阐明VIS模型的探索。
translated by 谷歌翻译
弱监督的对象定位(WSOL)旨在仅通过使用图像级标签来定位对象,由于其在实际应用中的注释成本较低,因此引起了很多关注。最近的研究利用自我发挥作用在视觉变压器中对远程依赖性的优势来重新活跃的语义区域,旨在避免在传统的类激活映射(CAM)中进行部分激活。但是,变压器中的远程建模忽略了对象的固有空间连贯性,并且通常会扩散远离对象边界的语义感知区域,从而使定位结果明显更大或更小。为了解决此类问题,我们引入了一个简单而有效的空间校准模块(SCM),以进行准确的WSOL,将斑块令牌的语义相似性及其空间关系融合到统一的扩散模型中。具体而言,我们引入了一个可学习的参数,以动态调整语义相关性和空间上下文强度,以进行有效的信息传播。实际上,SCM被设计为变压器的外部模块,可以在推断过程中删除以降低计算成本。对象敏感的定位能力通过在训练阶段的优化中隐式嵌入到变压器编码中。它使生成的注意力图能够捕获锐利对象边界并过滤对象 - 近距离背景区域。广泛的实验结果证明了该方法的有效性,该方法在CUB-200和Imagenet-1K基准测试基准上的表现明显优于其对应物TS-CAM。该代码可从https://github.com/164140757/scm获得。
translated by 谷歌翻译
在本文中,我们旨在设计一种能够共同执行艺术,照片现实和视频风格转移的通用风格的转移方法,而无需在培训期间看到视频。以前的单帧方法对整个图像进行了强大的限制,以维持时间一致性,在许多情况下可能会违反。取而代之的是,我们做出了一个温和而合理的假设,即全球不一致是由局部不一致所支配的,并设计了应用于本地斑块的一般对比度连贯性损失(CCPL)。 CCPL可以在样式传输过程中保留内容源的连贯性,而不会降低样式化。此外,它拥有一种邻居调节机制,从而大大减少了局部扭曲和大量视觉质量的改善。除了其在多功能风格转移方面的出色性能外,它还可以轻松地扩展到其他任务,例如图像到图像翻译。此外,为了更好地融合内容和样式功能,我们提出了简单的协方差转换(SCT),以有效地将内容功能的二阶统计数据与样式功能保持一致。实验证明了使用CCPL武装时,所得模型对于多功能风格转移的有效性。
translated by 谷歌翻译