在3D动作识别中,存在骨骼模式之间的丰富互补信息。然而,如何建模和利用这些信息仍然是一个充满挑战的3D动作表示学习的问题。在这项工作中,我们将交叉模式相互作用作为双向知识蒸馏问题。不同于经典的蒸馏解决方案,这些解决方案将固定和预训练的教师的知识转移到学生中,在这项工作中,知识在模式之间不断更新和双向蒸馏。为此,我们提出了一个新的跨模式相互蒸馏(CMD)框架,并采用以下设计。一方面,引入了相邻的相似性分布来对每种模式中学习的知识进行建模,其中关系信息自然适合对比框架。另一方面,不对称的配置用于教师和学生来稳定蒸馏过程并在模式之间传递高信心信息。通过派生,我们发现以前作品中的跨模式阳性采矿可以被视为我们CMD的退化版本。我们对NTU RGB+D 60,NTU RGB+D 120和PKU-MMD II数据集执行了广泛的实验。我们的方法的表现优于现有的自我监督方法,并设置了一系列新记录。该代码可在以下网址找到:https://github.com/maoyunyao/cmd
translated by 谷歌翻译
阿尔茨海默氏病(AD)的早期诊断对于促进预防性护理以延迟进一步发展至关重要。本文介绍了建立在痴呆症Pitt copus上的基于最新的构象识别系统以自动检测的开发。通过纳入一组有目的设计的建模功能,包括基于域搜索的自动配置特异性构象异构体超参数除外,还包括基于速度扰动和基于规格的数据增强训练的基线构象体系统可显着改善。使用学习隐藏单位贡献(LHUC)的细粒度老年人的适应性;以及与混合TDNN系统的基于两次通行的跨系统逆转。在48位老年人的评估数据上获得了总体单词错误率(相对34.8%)的总体单词错误率(相对34.8%)。使用最终系统的识别输出来提取文本特征,获得了最佳的基于语音识别的AD检测精度为91.7%。
translated by 谷歌翻译
混合动力和端到端(E2E)自动语音识别(ASR)系统之间的基本建模差异在其中创造了巨大的多样性和互补性。本文研究了混合TDNN和构型E2E ASR系统的基于多通的逆转和交叉适应系统组合方法。在多通恢复中,最先进的混合动力LF-MMI训练有素的CNN-TDNN系统具有速度扰动,规格和贝叶斯学习隐藏单元供款(LHUC)扬声器的适应器,以在被恢复之前产生初始的N-tesk输出由扬声器适应构象异构体系统,使用2向跨系统得分插值。在交叉适应中,混合CNN-TDNN系统适用于构象异构体系统的1好的输出,反之亦然。在300小时的总机语料库上进行的实验表明,使用两种系统组合方法中的任何一个得出的组合系统都超过了单个系统。在NIST HUB5'00,RT03和RT03和RT02评估数据。
translated by 谷歌翻译
关节特征本质上是声信号失真的不变,并且已成功地纳入了为正常语音设计的自动语音识别(ASR)系统。它们在非典型任务领域(例如老年人和跨语言的言语无序)的实际应用通常受到从目标扬声器收集此类专家数据的困难。本文介绍了一种跨域和跨语性A2A反演方法,该方法利用了A2A模型中24小时TAL Corpus的平行音频,视觉和超声舌成像(UTI)数据,然后进行交叉训练和交叉训练。语言适用于两种语言的三个数据集:英语dementiabank pitt和antonese JCCOCC MOCA老年演讲Corpora;以及英语Torgo违反语音数据,以产生基于UTI的发音特征。 Experiments conducted on three tasks suggested incorporating the generated articulatory features consistently outperformed the baseline hybrid TDNN and Conformer based end-to-end systems constructed using acoustic features only by statistically significant word error rate or character error rate reductions up to 2.64%, 1.92% and数据增强和说话者适应后,绝对4.17%,7.89%和13.28%相对1.21%。
translated by 谷歌翻译
在这项工作中,我们探索了用于视觉接地的整洁而有效的基于变压器的框架。先前的方法通常解决了视觉接地的核心问题,即具有手动设计的机制,即多模式融合和推理。这样的启发式设计不仅复杂化,而且使模型容易过度拟合特定的数据分布。为了避免这种情况,我们首先提出了TransVG,该TransVG通过变压器建立了多模式的对应关系,并通过直接回归框坐标来定位引用区域。我们从经验上表明,复杂的融合模块可以用具有更高性能的变压器编码层的简单堆栈代替。但是,TransVG中的核心融合变压器是针对Uni-Modal编码器的独立性,因此应在有限的视觉接地数据上从头开始训练,这使得很难优化并导致次优性能。为此,我们进一步介绍了TransVG ++以进行两倍的改进。一方面,我们通过利用Vision Transformer(VIT)进行视觉功能编码来将框架升级到一个纯粹的基于变压器的框架。对于另一个人来说,我们设计了语言有条件的视觉变压器,以去除外部融合模块,并重用Uni-Modal vit进行中间层的视觉融合。我们对五个普遍数据集进行了广泛的实验,并报告一系列最先进的记录。
translated by 谷歌翻译
尽管针对正常语音的自动语音识别(ASR)技术取得了迅速的进展,但迄今为止,准确认识违反障碍和老年语音仍然是高度挑战的任务。由于这些用户中经常发现的移动性问题,很难为ASR系统开发收集大量此类数据。为此,数据增强技术起着至关重要的作用。与现有的数据增强技术相反,仅修改光谱轮廓的说话速率或整体形状,使用一组新颖的扬声器依赖(SD)生成对抗网络(Gan )本文基于数据增强方法。这些既可以灵活地允许:a)在可用的语音数据可用时修改时间或速度的正常语音光谱,并更接近受损说话者的扬声器; b)对于非平行数据,SVD分解了正常语音频谱基础特征,要转换为目标老年人说话者的特征,然后再与时间基础重组以生成最先进的TDNN的增强数据和构象体ASR系统培训。实验是针对四个任务进行的:英语Uapseech和Torgo违反语音语音Corpora;英国痴呆症皮特和广东话JCCOCC MOCA老年语音数据集。所提出的基于GAN的数据增强方法始终优于基线速度扰动方法,最多可在Torgo和Dementiabank数据上降低4.91%和3.0%的绝对速度(相对相对9.61%和6.4%)。应用基于LHUC的扬声器适应后,保留了一致的性能改进。
translated by 谷歌翻译
现有的置换不变方法可以根据聚合范围(即全球聚合和局部局部)分为两类。尽管全局聚合方法,e。 g。,PointNet和Deep Sets,参与更简单的结构,它们的性能比PointNet ++和Point Transformer等局部聚合较差。如果存在具有简单结构,竞争性能甚至更少参数的全球聚合方法,那么它仍然是一个空旷的问题。在本文中,我们提出了一个基于双MLP点产品的新型全局聚合置换不变的网络,称为DUMLP-PIN,该网络能够用于提取集合输入的功能,包括无序或非结构的像素,属性,atter和Point和Point和Point云数据集。我们严格地证明,DUMLP-PIN实现的任何置换不变函数都可以通过点产生方式分解为两个或多个置换量的函数,因为给定输入集的基数大于阈值。我们还表明,在某些条件下,可以将DUMLP针视为具有强大限制的深度集。 DUMLP-PIN的性能在具有不同数据集的几个不同任务上进行了评估。实验结果表明,我们的DUMLP-PIN在像素集和属性集的两个分类问题上取得了最佳结果。在点云分类和零件分割上,DUMLP-PIN的准确性非常接近SO-FAR最佳表现最佳的本地聚合方法,仅差异1-2%,而所需参数的数量显着降低了分类分别超过85%和69%的分割。该代码可在https://github.com/jaronthu/dumlp-pin上公开获得。
translated by 谷歌翻译
它得到了很好的认识到,从深度感知的LIDAR点云和语义富有的立体图像中融合互补信息将有利于3D对象检测。然而,探索稀疏3D点和密集2D像素之间固有的不自然相互作用并不重要。为了简化这种困难,最近的建议通常将3D点投影到2D图像平面上以对图像数据进行采样,然后聚合点处的数据。然而,这种方法往往遭受点云和RGB图像的分辨率之间的不匹配,导致次优性能。具体地,作为多模态数据聚合位置的稀疏点导致高分辨率图像的严重信息丢失,这反过来破坏了多传感器融合的有效性。在本文中,我们呈现VPFNET - 一种新的架构,可以在“虚拟”点处巧妙地对齐和聚合点云和图像数据。特别地,它们的密度位于3D点和2D像素的密度之间,虚拟点可以很好地桥接两个传感器之间的分辨率间隙,从而保持更多信息以进行处理。此外,我们还研究了可以应用于点云和RGB图像的数据增强技术,因为数据增强对迄今为止对3D对象探测器的贡献不可忽略。我们对Kitti DataSet进行了广泛的实验,与最先进的方法相比,观察到了良好的性能。值得注意的是,我们的VPFNET在KITTI测试集上实现了83.21 \%中等3D AP和91.86 \%适度的BEV AP,自2021年5月21日起排名第一。网络设计也考虑了计算效率 - 我们可以实现FPS 15对单个NVIDIA RTX 2080TI GPU。该代码将用于复制和进一步调查。
translated by 谷歌翻译
与平板扫描仪相比,便携式智能手机在物理文档数字化方面更加方便。但是,由于不受控制的物理变形,相机位置和照明变化,这种数字化的文档通常会扭曲。为此,我们提出了DocScanner,这是文档图像纠正的新颖框架。与现有方法不同,DocScanner通过引入渐进的学习机制来解决此问题。具体而言,DOCSCANNER维护了整流图像的单个估计值,该图像通过经常性架构逐步校正。迭代的精炼使DocScanner融合到了强大而卓越的性能,而轻量级的重复体系结构可确保运行效率。此外,在上述整流过程之前,观察先前工作中存在的损坏的整流边界,DocScanner利用文档本地化模块从混乱的背景环境中明确分割前景文档。为了进一步提高纠正质量,基于扭曲图像和整流图像之间的几何先验,在训练过程中引入了几何正则化,以进一步提高性能。在DOC3D数据集和Docunet基准数据集上进行了广泛的实验,定量和定性评估结果验证了DOCSCANNER的有效性,DOCSCANNER的有效性超过了先前的OCR准确性,图像相似性,以及我们建议的失真指标可相当大。此外,我们的DOCSCANNER显示出运行时延迟和型号大小的最高效率。
translated by 谷歌翻译
我们研究了无模型增强学习的问题,该问题通常按照广义政策迭代(GPI)的原则解决。尽管GPI通常是策略评估和策略改进之间的相互作用,但大多数传统的无模型方法都假定粒度的独立性和GPI步骤的其他细节,尽管它们之间存在固有的联系。在本文中,我们提出了一种方法,该方法使政策评估和策略改进之间的不一致性正常,从而导致冲突的GPI解决方案,并减少了功能近似错误。为此,我们制定了一种新颖的学习范式,其中采取政策评估步骤等同于对执行政策改进的一些补偿,从而有效地减轻了两个GPI步骤之间的梯度冲突。我们还表明,我们提出的解决方案的形式等同于执行熵登记的策略改进,因此阻止该政策被困在次优的解决方案中。我们进行了广泛的实验,以评估我们在街机学习环境(ALE)方面的方法。经验结果表明,我们的方法在主要评估领域的表现优于几个强基础。
translated by 谷歌翻译