ACM MMSPORTS2022 DEEPSPORTRADAR实例细分挑战的目标是解决个人人类的细分,包括球员,教练和裁判在篮球场上。这项挑战的主要特征是,玩家之间存在很高的阻塞,数据量也非常有限。为了解决这些问题,我们设计了一个强大的实例分割管道。首先,我们对此任务采用了适当的数据增强策略,主要包括光度失真变换和复制式策略,该策略可以生成更多具有更广泛分布的图像实例。其次,我们采用了强大的分割模型,基于SWIN基础的CBNETV2骨架上的基于混合任务级联的检测器,并将Maskiou Head添加到HTCMASKHEAD,可以简单有效地改善实例细分的性能。最后,采用了SWA培训策略来进一步提高性能。实验结果表明,所提出的管道可以在DeepSportradar挑战中取得竞争成果,而挑战集则以0.768AP@0.50:0.95。源代码可在https://github.com/yjingyu/instanc_segentation_pro中获得。
translated by 谷歌翻译
时空视频接地(STVG)的重点是检索由自由形式的文本表达式描绘的特定物体的时空管。现有方法主要将这一复杂的任务视为平行框架的问题,因此遭受了两种类型的不一致缺点:特征对齐不一致和预测不一致。在本文中,我们提出了一个端到端的一阶段框架,称为时空的一致性变压器(STCAT),以减轻这些问题。特别是,我们引入了一个新颖的多模式模板,作为解决此任务的全球目标,该目标明确限制了接地区域并将所有视频框架之间的预测联系起来。此外,为了在足够的视频文本感知下生成上述模板,提出了一个编码器架构来进行有效的全局上下文建模。由于这些关键设计,STCAT享有更一致的跨模式特征对齐和管预测,而无需依赖任何预训练的对象探测器。广泛的实验表明,我们的方法在两个具有挑战性的视频基准(VIDSTG和HC-STVG)上胜过先前的最先进的,这说明了拟议框架的优越性,以更好地理解视觉与自然语言之间的关联。代码可在\ url {https://github.com/jy0205/stcat}上公开获得。
translated by 谷歌翻译
最近,由于受监督人员重新识别(REID)的表现不佳,域名概括(DG)人REID引起了很多关注,旨在学习一个不敏感的模型,并可以抵抗域的影响偏见。在本文中,我们首先通过实验验证样式因素是域偏差的重要组成部分。基于这个结论,我们提出了一种样式变量且无关紧要的学习方法(SVIL)方法,以消除样式因素对模型的影响。具体来说,我们在SVIL中设计了样式的抖动模块(SJM)。 SJM模块可以丰富特定源域的样式多样性,并减少各种源域的样式差异。这导致该模型重点关注与身份相关的信息,并对样式变化不敏感。此外,我们将SJM模块与元学习算法有机结合,从而最大程度地提高了好处并进一步提高模型的概括能力。请注意,我们的SJM模块是插件和推理,无需成本。广泛的实验证实了我们的SVIL的有效性,而我们的方法的表现优于DG-REID基准测试的最先进方法。
translated by 谷歌翻译
基于自然语言(NL)的车辆检索旨在搜索给定文本描述的特定车辆。不同于基于图像的车辆检索,基于NL的车辆检索不仅需要考虑车辆外观,还需要考虑周围环境和时间关系。在本文中,我们提出了一个具有空间关系建模(SSM)方法的对称网络,用于基于NL的车辆检索。具体而言,我们设计了一个对称网络,以学习文本描述和车辆图像之间的统一跨模式表示,其中保留了车辆外观细节和车辆轨迹全球信息。此外,为了更好地利用位置信息,我们提出了一种空间关系建模方法,以考虑周围环境和相互关系的考虑。定性和定量实验验证了所提出的方法的有效性。我们在第六届AI城市挑战赛的测试集上获得了43.92%的MRR准确性,该挑战是基于自然语言的车辆检索轨道,在公共排行榜上所有有​​效的提交中排名第一。该代码可从https://github.com/hbchen121/aicity2022_track2_ssm获得。
translated by 谷歌翻译
由于无频率,隐私保护和RF信号的广泛覆盖性质,设备自由人的手势识别已得到赞誉。然而,在应用于新域时,从特定域收集的数据训练以识别的神经网络模型受到显着的性能下降。为了解决这一挑战,我们通过有效使用未标记的目标域数据,为设备免费手势识别提出了无监督的域适应框架。具体而言,我们使用伪标签和一致性正则化,并在目标域数据上进行详细设计,以生成伪标签并对齐目标域的实例特征。然后,我们通过随机擦除输入数据来设计两个数据增强方法以增强模型的稳健性。此外,我们应用置信控制约束来解决过度频繁问题。我们对公共WiFi数据集和公共毫米波雷达数据集进行了广泛的实验。实验结果表明了所提出的框架的优越效果。
translated by 谷歌翻译
使用毫米波(MMWAVE)信号的人类手势识别提供有吸引力的应用,包括智能家居和车载界面。虽然现有的作品在受控设置下实现有前途的性能,但实际应用仍然有限,因为需要密集数据收集,适应新域时的额外培训努力(即环境,人员和地点)和实时识别的表现不佳。在本文中,我们提出了Di-Gesture,一个独立于域和实时MMWAVE手势识别系统。具体地,我们首先导出与具有空间时间处理的人体手势对应的信号变化。为了增强系统的稳健性并减少数据收集工作,我们根据信号模式与手势变化之间的相关性设计数据增强框架。此外,我们提出了一种动态窗口机制来自动且准确地执行手势分割,从而能够实时识别。最后,我们建立了一种轻量级神经网络,以从用于手势分类的数据中提取空间信息。广泛的实验结果表明,Di-Gesture分别为新用户,环境和地点的平均精度为97.92%,99.18%和98.76%。在实时场景中,Di-Gesutre的准确性达到97%以上,平均推断时间为2.87ms,这表明了我们系统的优越稳健性和有效性。
translated by 谷歌翻译
最近,已被证明基于大规模的变换器的模型在许多域中的各种任务中有效。尽管如此,将它们投入生产非常昂贵,需要全面的优化技术来降低推理成本。本文介绍了一系列变压器推理优化技术,既可算法等级和硬件级别。这些技术包括预填充解码机制,其改善了文本生成的令牌并行性,并且设计用于非常长的输入长度和大的隐藏尺寸设计的高度优化的内核。在此基础上,我们提出了一种变压器推理加速库 - 简单高效的变压器(EET),对现有库具有显着的性能改进。与更快的变压器V4.0在A100上的GPT-2层的实现相比,EET实现了1.5-4.5倍的最先进的加速,随着不同的上下文长度而变化。 EET可在https://github.com/netease-fuxi/eet中获得。 Demo视频可在https://youtu.be/22upcngcerg获得。
translated by 谷歌翻译
Scene text editing (STE) aims to replace text with the desired one while preserving background and styles of the original text. However, due to the complicated background textures and various text styles, existing methods fall short in generating clear and legible edited text images. In this study, we attribute the poor editing performance to two problems: 1) Implicit decoupling structure. Previous methods of editing the whole image have to learn different translation rules of background and text regions simultaneously. 2) Domain gap. Due to the lack of edited real scene text images, the network can only be well trained on synthetic pairs and performs poorly on real-world images. To handle the above problems, we propose a novel network by MOdifying Scene Text image at strokE Level (MOSTEL). Firstly, we generate stroke guidance maps to explicitly indicate regions to be edited. Different from the implicit one by directly modifying all the pixels at image level, such explicit instructions filter out the distractions from background and guide the network to focus on editing rules of text regions. Secondly, we propose a Semi-supervised Hybrid Learning to train the network with both labeled synthetic images and unpaired real scene text images. Thus, the STE model is adapted to real-world datasets distributions. Moreover, two new datasets (Tamper-Syn2k and Tamper-Scene) are proposed to fill the blank of public evaluation datasets. Extensive experiments demonstrate that our MOSTEL outperforms previous methods both qualitatively and quantitatively. Datasets and code will be available at https://github.com/qqqyd/MOSTEL.
translated by 谷歌翻译
Image completion with large-scale free-form missing regions is one of the most challenging tasks for the computer vision community. While researchers pursue better solutions, drawbacks such as pattern unawareness, blurry textures, and structure distortion remain noticeable, and thus leave space for improvement. To overcome these challenges, we propose a new StyleGAN-based image completion network, Spectral Hint GAN (SH-GAN), inside which a carefully designed spectral processing module, Spectral Hint Unit, is introduced. We also propose two novel 2D spectral processing strategies, Heterogeneous Filtering and Gaussian Split that well-fit modern deep learning models and may further be extended to other tasks. From our inclusive experiments, we demonstrate that our model can reach FID scores of 3.4134 and 7.0277 on the benchmark datasets FFHQ and Places2, and therefore outperforms prior works and reaches a new state-of-the-art. We also prove the effectiveness of our design via ablation studies, from which one may notice that the aforementioned challenges, i.e. pattern unawareness, blurry textures, and structure distortion, can be noticeably resolved. Our code will be open-sourced at: https://github.com/SHI-Labs/SH-GAN.
translated by 谷歌翻译
目的:卷积神经网络(CNN)在脑部计算机界面(BCI)领域表现出巨大的潜力,因为它们能够直接处理无人工特征提取而直接处理原始脑电图(EEG)。原始脑电图通常表示为二维(2-D)矩阵,由通道和时间点组成,忽略了脑电图的空间拓扑信息。我们的目标是使带有原始脑电图信号的CNN作为输入具有学习EEG空间拓扑特征的能力,并改善其分类性能,同时实质上保持其原始结构。方法:我们提出了一个EEG地形表示模块(TRM)。该模块由(1)从原始脑电图信号到3-D地形图的映射块和(2)从地形图到与输入相同大小的输出的卷积块组成。我们将TRM嵌入了3个广泛使用的CNN中,并在2种不同类型的公开数据集中测试了它们。结果:结果表明,使用TRM后,两个数据集都在两个数据集上提高了3个CNN的分类精度。在模拟驾驶数据集(EBDSDD)和2.83 \%,2.17 \%和2.17 \%\%和2.17 \%和2.00 \%的紧急制动器上,具有TRM的DeepConvnet,Eegnet和ShandowConvnet的平均分类精度提高了4.70 \%,1.29 \%和0.91 \%高γ数据集(HGD)。意义:通过使用TRM来挖掘脑电图的空间拓扑特征,我们在2个数据集上提高了3个CNN的分类性能。另外,由于TRM的输出的大小与输入相同,因此任何具有RAW EEG信号的CNN作为输入可以使用此模块而无需更改原始结构。
translated by 谷歌翻译