The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
与现场测量相比,遥感益处可以通过使大面积的监控更容易地进行栖息地保护,尤其是在可以自动分析遥感数据的情况下。监测的一个重要方面是对受监视区域中存在的栖息地类型进行分类和映射。自动分类是一项艰巨的任务,因为课程具有细粒度的差异,并且它们的分布是长尾巴且不平衡的。通常,用于自动土地覆盖分类的培训数据取决于完全注释的分割图,从遥感的图像到相当高的分类学,即森林,农田或市区等类别。自动栖息地分类的挑战是可靠的数据注释需要现场策略。因此,完整的分割图的生产成本很高,训练数据通常很稀疏,类似点,并且仅限于可以步行访问的区域。需要更有效地利用这些有限数据的方法。我们通过提出一种栖息地分类和映射的方法来解决这些问题,并应用此方法将整个芬兰拉普兰北部地区分类为Natura2000类。该方法的特征是使用从现场收集的细粒,稀疏,单像素注释,并与大量未经通知的数据结合在一起来产生分割图。比较了监督,无监督和半监督的方法,并证明了从较大的室外数据集中转移学习的好处。我们提出了一个\ ac {cnn}偏向于中心像素分类,与随机的森林分类器结合使用,该分类器比单独的模型本身产生更高的质量分类。我们表明,增加种植,测试时间的增加和半监督的学习可以进一步帮助分类。
translated by 谷歌翻译
尽管CNN的性能卓越,但将它们部署在低计算功率设备上仍然有限,因为它们通常在计算上昂贵。高复杂性的一个关键原因是卷积层与完全连接的层之间的连接,通常需要大量参数。为了减轻此问题,最近提出了一系列功能(BOF)合并。 BOF学习了一个字典,该字典用于编译输入的直方图表示。在本文中,我们提出了一种基于BOF Poling之上的方法,以确保学习词典的项目不是冗余的,以提高其效率。我们根据词典项目的成对相关性提出了一个额外的损失项,该词典的配对相关性补充了标准损失,以明确规范模型以学习更多样化和丰富的词典。提出的策略产生了BOF的有效变体,并进一步提高了其性能,而无需任何其他参数。
translated by 谷歌翻译
最近,对卷积神经网络(CNNS)的注意机制越来越令人兴趣,以解决计算机视觉任务。大多数这些方法学会了解明确地识别和突出场景的相关部分并将参与图像传递给网络的其他层。在本文中,我们认为这种方法可能不是最佳的。可以说,明确地学习图像的哪些部分是相关的,通常比学习图像的图像较小的哪些部分更难,因此应该忽略。事实上,在视觉域中,存在许多易于识别的无关功能模式。例如,接近边界的图像区域不太可能包含分类任务的有用信息。基于这个想法,我们建议在CNNS中重构注意力机制,以学会忽略而不是学习参加。具体而言,我们建议明确地学习场景中的无关信息,并在产生的表示中抑制它,只保留重要属性。这种隐式关注方案可以纳入任何现有的注意机制。在这项工作中,我们使用最近的两个注意方法挤压和激励(SE)块和卷积块注意模块(CBAM)来验证这个想法。不同数据集和模型架构上的实验结果表明,学习忽略,即隐含的注意力,与标准方法相比,产生卓越的性能。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的子空间学习框架,用于一级分类。提出的框架以图形嵌入形式提出了问题。它包括先前提出的子空间一级技术作为特殊情况,并进一步了解这些技术实际优化了什么。该框架允许通过保留图表结合其他有意义的优化目标,并揭示光谱解决方案和基于光谱回归的解决方案作为先前基于梯度的技术的替代方案。我们将子空间学习框架与支持向量数据描述在子空间中应用,以制定图形包含的子空间支持向量数据描述。我们通过实验分析了新提出的不同变体的性能。我们证明了针对基准的性能以及最近提出的单级分类子空间学习方法。
translated by 谷歌翻译
We propose Spatio-temporal Crop Aggregation for video representation LEarning (SCALE), a novel method that enjoys high scalability at both training and inference time. Our model builds long-range video features by learning from sets of video clip-level features extracted with a pre-trained backbone. To train the model, we propose a self-supervised objective consisting of masked clip feature prediction. We apply sparsity to both the input, by extracting a random set of video clips, and to the loss function, by only reconstructing the sparse inputs. Moreover, we use dimensionality reduction by working in the latent space of a pre-trained backbone applied to single video clips. The video representation is then obtained by taking the ensemble of the concatenation of embeddings of separate video clips with a video clip set summarization token. These techniques make our method not only extremely efficient to train, but also highly effective in transfer learning. We demonstrate that our video representation yields state-of-the-art performance with linear, non-linear, and $k$-NN probing on common action classification datasets.
translated by 谷歌翻译
我们提出Simprov-可扩展的图像出处框架,将查询图像匹配回到可信的原始数据库,并在查询上确定可能的操作。 Simprov由三个阶段组成:检索Top-K最相似图像的可扩展搜索阶段;一个重新排列和近乎解复的检测阶段,用于识别候选人之间的原件;最后,在查询中定位区域的操纵检测和可视化阶段可能被操纵与原始区域不同。 Simprov对在线再分配过程中通常发生的良性图像转换非常强大,例如由于噪声和重新压缩降解而引起的工件,以及由于图像填充,翘曲,尺寸和形状的变化而引起的过度转换。通过对比较器体系结构中可区分的翘曲模块的端到端训练,可以实现对实地转换的鲁棒性。我们证明了对1亿张图像的数据集的有效检索和操纵检测。
translated by 谷歌翻译
我们提出了一种解决从脸部单个运动模糊图像的新观点渲染夏普视频的新颖任务。我们的方法通过隐式地通过三个大型数据集的联合训练来处理面部的几何和运动来处理面部模糊的复杂性:FFHQ和300VW,我们构建的新伯尔尼多视图DataSet(BMFD) 。前两个数据集提供了各种各样的面,并允许我们的模型更好地概括。 BMFD允许我们引入多视图约束,这对于从新的相机视图综合夏普视频至关重要。它由来自多个主题的多种视图的高帧速率同步视频组成,这些拍摄对象的多个观点显示了广泛的面部表情。我们使用高帧率视频通过平均来模拟现实运动模糊。感谢此数据集,我们训练一个神经网络,从单个图像和相应的面凝视中重建3D视频表示。然后,我们将相对于估计的凝视和模糊图像提供相机视点,作为对编码器解码器网络的输入,以生成具有新颖的相机视点的锐框的视频。我们在我们的多视图数据集和Vidtimit的测试对象上展示了我们的方法。
translated by 谷歌翻译
我们介绍了一种新颖的自我监督的对比学习方法,以了解来自未标记视频的表示。现有方法忽略了输入失真的细节,例如,通过学习与时间转换的不变性。相反,我们认为视频表示应该保留视频动态并反映输入的时间操纵。因此,我们利用新的约束来构建对时间转换和更好的捕获视频动态的表示表示。在我们的方法中,视频的增强剪辑之间的相对时间转换被编码在向量中并与其他转换向量形成对比。为了支持时间的设备,我们还提出了将视频的两个剪辑的自我监督分类为1.重叠2.订购或3.无序。我们的实验表明,时代的表示达到最先进的结果,导致UCF101,HMDB51和潜水48上的视频检索和动作识别基准。
translated by 谷歌翻译