智能论文笔记

MaskRange: A Mask-classification Model for Range-view based LiDAR Segmentation

Yi Gu , Yuming Huang , Chengzhong Xu , Hui Kong

分类：计算机视觉

2022-06-24

基于范围视图的LIDAR分割方法由于其直接继承了有效的2D CNN体系结构，因此对实际应用具有吸引力。在文献中，大多数基于范围的方法都遵循每个像素分类范式。最近，在图像分割域中，另一个范式将分割作为面具分类问题，并实现了出色的性能。这提出了一个有趣的问题：掩码分类范式是否可以使基于范围的LIDAR分割受益并获得比每个像素范式对应的更好的性能？为了回答这个问题，我们为基于范围视图的LIDAR语义和全景分段提出了一个统一的面膜分类模型MaskRange。除了新的范式外，我们还提出了一种新型的数据增强方法，以应对过度拟合，上下文依赖和班级不平衡问题。大量实验是在Semantickitti基准测试上进行的。在所有基于范围视图的方法中，我们的面具以$ 66.10 $ MIOU的语义细分和有希望的结果以$ 53.10 $ pq的pq pq in Panoptic细分，以高效的效率达到了最新的性能。我们的代码将发布。

translated by 谷歌翻译

IMFNet: Interpretable Multimodal Fusion for Point Cloud Registration

Xiaoshui Huang , Wentao Qu , Yifan Zuo , Yuming Fang , Xiaowei Zhao

分类：计算机视觉

2021-11-18

现有的最先进的点描述符仅依赖于结构信息，从而省略纹理信息。然而，纹理信息对于我们的人类来区分场景部分至关重要。此外，基于学习的点描述符是尚不清楚原始点如何贡献到最终描述符的黑框。在本文中，我们提出了一种新的多模式融合方法，通过考虑结构和纹理信息来生成点云注册描述符。具体地，设计一种新的关注融合模块，用于提取描述符提取的加权纹理信息。此外，我们提出了一个可解释的模块来解释有助于最终描述符的原始点。我们使用描述符元素作为对目标层的丢失丢失，并将梯度视为对最终描述符的这一点的重要性。本文进一步移动了一步，以解释注册任务中的深度学习。 3DMATCH，3DLomatch和Kitti的综合实验表明，多模式融合描述符实现最先进的准确性并提高描述符的独特性。我们还表明我们的可解释模块在解释注册描述符提取时。

translated by 谷歌翻译

INTERN: A New Learning Paradigm Towards General Vision

Jing Shao , Siyu Chen , Yangguang Li , Kun Wang , Zhenfei Yin , Yinan He , Jianing Teng , Qinghong Sun , Mengya Gao , Jihao Liu

分类：计算机视觉 | 人工智能 | 机器学习

2021-11-16

过去几年的技术创新的巨大浪潮，标志着AI技术的进展，是深刻的重塑行业和社会。然而，在路上，一个关键的挑战等待着我们，即我们满足快速增长的情景的能力的能力受到收购培训数据的成本的严重限制。由于主流学习范式的局限性，这一困难的局面是基于主流学习范式的局限性：我们需要根据大量注释的数据以及通常从头来训练每个新场景的新模型。在解决这一基本问题时，我们超越并开发一个名为实习生的新学习范式。通过在多个阶段的来自多个来源的监控信号学习，培训的模型将产生强大的相互性。我们在26个众所周知的数据集中评估我们的模型，该数据集涵盖计算机视觉中的四类任务。在大多数情况下，我们的模型仅适用于目标域中的培训数据的10％，始终以完整的数据培训的对应物，通常由显着的边距。这是一个重要前景的重要一步，其中具有一般视觉能力的这种模型可以大大降低对数据的依赖，从而加速通过AI技术的采用。此外，围绕我们的新范式旋转，我们还介绍了一个新的数据系统，新的架构和新的基准，以及一起形成一般愿景生态系统，以开放和包容性的方式支持其未来的发展。

translated by 谷歌翻译

Salt and pepper noise removal method based on stationary Framelet transform with non-convex sparsity regularization

Yingpin Chen , Yuming Huang , Lingzhi Wang , Huiying Huang , Jianhua Song , Chaoqun Yu , Yanping Xu

分类：计算机视觉

2021-10-18

盐和辣椒噪声去除是图像处理中的常见问题。传统的去噪方法有两个限制。首先，通常未准确描述噪声特性。例如，噪声位置信息通常被忽略，并且盐和辣椒噪声的稀疏性通常由L1标准描述，这不能清楚地示出稀疏变量。其次，传统方法将污染图像分离成恢复的图像和噪声部分，从而导致恢复具有不满足平滑部件和细节部件的图像。在本研究中，我们引入了噪声检测策略来确定噪声的位置，并且采用由LP准规范描绘的非凸稀稀曲面正规化来描述噪声的稀疏性，从而解决了第一个限制。采用静止框架变换的形态分析框架将处理的图像分解为卡通，纹理和噪声部件以解决第二个限制。然后，采用乘法器（ADMM）的交替方向方法来解决所提出的模型。最后，进行实验以验证所提出的方法，并将其与一些最新的最先进的去噪方法进行比较。实验结果表明，该方法可以在保留加工图像的细节时去除盐和辣椒噪声。

translated by 谷歌翻译

Reference-based Image and Video Super-Resolution via C2-Matching

Yuming Jiang , Kelvin C. K. Chan , Xintao Wang , Chen Change Loy , Ziwei Liu

分类：计算机视觉

2022-12-19

Reference-based Super-Resolution (Ref-SR) has recently emerged as a promising paradigm to enhance a low-resolution (LR) input image or video by introducing an additional high-resolution (HR) reference image. Existing Ref-SR methods mostly rely on implicit correspondence matching to borrow HR textures from reference images to compensate for the information loss in input images. However, performing local transfer is difficult because of two gaps between input and reference images: the transformation gap (e.g., scale and rotation) and the resolution gap (e.g., HR and LR). To tackle these challenges, we propose C2-Matching in this work, which performs explicit robust matching crossing transformation and resolution. 1) To bridge the transformation gap, we propose a contrastive correspondence network, which learns transformation-robust correspondences using augmented views of the input image. 2) To address the resolution gap, we adopt teacher-student correlation distillation, which distills knowledge from the easier HR-HR matching to guide the more ambiguous LR-HR matching. 3) Finally, we design a dynamic aggregation module to address the potential misalignment issue between input images and reference images. In addition, to faithfully evaluate the performance of Reference-based Image Super-Resolution under a realistic setting, we contribute the Webly-Referenced SR (WR-SR) dataset, mimicking the practical usage scenario. We also extend C2-Matching to Reference-based Video Super-Resolution task, where an image taken in a similar scene serves as the HR reference image. Extensive experiments demonstrate that our proposed C2-Matching significantly outperforms state of the arts on the standard CUFED5 benchmark and also boosts the performance of video SR by incorporating the C2-Matching component into Video SR pipelines.

translated by 谷歌翻译

ESKNet-An enhanced adaptive selection kernel convolution for breast tumors segmentation

Gongping Chen , Jianxun Zhang , Yuming Liu , Jingjing Yin , Xiaotao Yin , Liang Cui , Yu Dai

分类：计算机视觉

2022-11-05

Breast cancer is one of the common cancers that endanger the health of women globally. Accurate target lesion segmentation is essential for early clinical intervention and postoperative follow-up. Recently, many convolutional neural networks (CNNs) have been proposed to segment breast tumors from ultrasound images. However, the complex ultrasound pattern and the variable tumor shape and size bring challenges to the accurate segmentation of the breast lesion. Motivated by the selective kernel convolution, we introduce an enhanced selective kernel convolution for breast tumor segmentation, which integrates multiple feature map region representations and adaptively recalibrates the weights of these feature map regions from the channel and spatial dimensions. This region recalibration strategy enables the network to focus more on high-contributing region features and mitigate the perturbation of less useful regions. Finally, the enhanced selective kernel convolution is integrated into U-net with deep supervision constraints to adaptively capture the robust representation of breast tumors. Extensive experiments with twelve state-of-the-art deep learning segmentation methods on three public breast ultrasound datasets demonstrate that our method has a more competitive segmentation performance in breast ultrasound images.

translated by 谷歌翻译

A Simple and Powerful Global Optimization for Unsupervised Video Object Segmentation

Georgy Ponimatkin , Nermin Samet , Yang Xiao , Yuming Du , Renaud Marlet , Vincent Lepetit

分类：计算机视觉

2022-09-19

我们为视频中的无监督对象细分提出了一种简单而强大的方法。我们引入了一个目标函数，其最小值代表输入序列上主要显着对象的掩码。它仅依赖于独立的图像特征和光流，可以使用现成的自我监督方法获得。它以序列的长度缩放，不需要超级像素或稀疏，并且在没有任何特定培训的情况下将其推广到不同的数据集。该目标函数实际上可以从应用于整个视频的光谱群集形式得出。我们的方法通过标准基准（Davis2016，segtrack-v2，fbms59）实现了PAR的性能，同时在概念上且实际上更简单。代码可从https://ponimatkin.github.io/ssl-vos获得。

translated by 谷歌翻译

PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF Tracking

Van Nguyen Nguyen , Yuming Du , Yang Xiao , Michael Ramamonjisoa , Vincent Lepetit

分类：计算机视觉

2022-09-15

估计没有先验知识的新对象的相对姿势是一个困难的问题，而它是机器人技术和增强现实中非常需要的能力。我们提出了一种方法，可以在训练图像和对象的3D几何形状都没有可用时跟踪对象中对象的6D运动。因此，与以前的作品相反，我们的方法可以立即考虑开放世界中的未知对象，而无需任何先前的信息或特定的培训阶段。我们考虑两个架构，一个基于两个帧，另一个依赖于变压器编码器，它们可以利用任意数量的过去帧。我们仅使用具有域随机化的合成渲染训练架构。我们在具有挑战性的数据集上的结果与以前需要更多信息的作品（训练目标对象，3D模型和/或深度数据的培训图像）相当。我们的源代码可从https://github.com/nv-nguyen/pizza获得

translated by 谷歌翻译

Tracking Small and Fast Moving Objects: A Benchmark

Zhewen Zhang , Fuliang Wu , Yuming Qiu , Jingdong Liang , Shuiwang Li

分类：计算机视觉

2022-09-09

随着越来越多的大规模数据集可用于培训，近年来，视觉跟踪取得了长足的进步。但是，该领域的当前研究主要集中在跟踪通用对象上。在本文中，我们介绍了tsfmo，这是\ textbf {t} racking \ textbf {s} mall和\ textbf {f} ast \ textbf {m} oving \ textbf {o textbf {o} bignts的基准。该基准旨在鼓励研究为这项具有挑战性的任务开发新颖和准确的方法。 TSFMO由250个序列组成，总共约有50k帧。这些序列中的每个帧都用边界框仔细和手动注释。据我们所知，TSFMO是第一个致力于跟踪小型和快速移动物体的基准，尤其是与运动相关的对象。为了了解现有方法的性能并为TSFMO的未来研究提供比较，我们广泛评估了基准上的20个最先进的跟踪器。评估结果表明，需要更多的精力来改善跟踪小型和快速移动的物体。此外，为了鼓励未来的研究，我们提出了一种新颖的跟踪器S-keptrack，它超过了所有20种评估的方法。通过释放TSFMO，我们希望促进未来的研究和应用小型和快速移动对象的应用。 \ url {https://github.com/codeofgithub/s-keeptrack}可用TSFMO和评估结果以及S-KeepTrack。

translated by 谷歌翻译

TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut

Yangtao Wang , Xi Shen , Yuan Yuan , Yuming Du , Maomao Li , Shell Xu Hu , James L Crowley , Dominique Vaufreydaz

分类：计算机视觉 | (统计)机器学习

2022-09-01

在本文中，我们描述了一种基于图的算法，该算法使用自我监管的变压器获得的功能来检测图像和视频中的显着对象。使用这种方法，将构成图像或视频的图像贴片组织成一个完全连接的图，其中每对贴片之间的边缘使用变压器学到的功能在补丁之间标记为相似性得分。然后将显着物体的检测和分割作为图形问题配制，并使用经典的归一化切割算法解决。尽管这种方法很简单，但它仍可以在几个常见的图像和视频检测和分割任务上实现最新结果。对于无监督的对象发现，当使用VOC07，VOC12和COCO20K数据集进行测试时，这种方法的优于竞争方法的差距分别为6.1％，5.7％和2.6％。对于图像中无监督的显着性检测任务，此方法将联合（IOU）的交叉分数提高了4.4％，5.6％和5.2％。与当前最新技术相比，与ECSD，DUTS和DUT-OMRON数据集进行测试时。该方法还通过戴维斯，SEGTV2和FBMS数据集为无监督的视频对象分割任务实现了竞争结果。

translated by 谷歌翻译