在计算机视觉中,多标签分类(包括零击的多标签分类)是具有许多真实应用程序的重要任务。在本文中,我们提出了一种新颖的算法,对齐双模态分类器(ADDS),其中包括一个双模式解码器(DM-DECODER),具有视觉和文本特征之间的对齐方式,用于多标签分类任务。此外,我们设计了一种简单但有效的方法,称为金字塔 - 福音,以提高分辨率高的输入的性能。在标准的多标签基准数据集(MS-Coco和NUS范围内)进行的广泛实验表明,我们的方法显着胜过以前的方法,并为常规多标签分类,零发射的多标签提供最先进的性能分类和一种称为单一标签分类的极端情况,其中在单标签数据集(Imagenet-1K,Imagenet-21K)上训练的模型在多标签的模型(MS-Coco和NUS范围内)进行了测试。我们还分析了视觉文本一致性如何有助于提出的方法,验证DM码头的重要性,并证明了金字塔 - 反向视觉变压器的有效性。
translated by 谷歌翻译
In recent years, there have been abundant researches focused on indoor human presence detection based on laborious supervised learning (SL) and channel state information (CSI). These existing studies adopt spatial information of CSI to improve detection accuracy. However, channel is susceptible to arbitrary environmental changes in practice, such as the object movement, atmospheric factors and machine rebooting, which leads to degraded prediction accuracy. However, the existing SL-based methods require to re-train a new model with time-consuming labeling. Therefore, designing a semi-supervised learning (SSL) based scheme by continuously monitoring model "life-cycle" becomes compellingly imperative. In this paper, we propose bifold teacher-student (BTS) learning for presence detection system, which combines SSL by utilizing partial labeled and unlabeled dataset. The proposed primal-dual teacher-student network is capable of intelligently learning spatial and temporal features from labeled and unlabeled CSI. Additionally, the enhanced penalized loss function leveraging entropy and distance measure can distinguish the drifted data, i.e., features of new dataset are affected by time-varying effect and are alternated from the original distribution. The experimental results demonstrate that the proposed BTS system can sustain the asymptotic accuracy after retraining the model with unlabeled data. Moreover, label-free BTS outperforms the existing SSL-based models in terms of the highest detection accuracy, while achieving the similar performance of SL-based methods.
translated by 谷歌翻译
The neural transducer is an end-to-end model for automatic speech recognition (ASR). While the model is well-suited for streaming ASR, the training process remains challenging. During training, the memory requirements may quickly exceed the capacity of state-of-the-art GPUs, limiting batch size and sequence lengths. In this work, we analyze the time and space complexity of a typical transducer training setup. We propose a memory-efficient training method that computes the transducer loss and gradients sample by sample. We present optimizations to increase the efficiency and parallelism of the sample-wise method. In a set of thorough benchmarks, we show that our sample-wise method significantly reduces memory usage, and performs at competitive speed when compared to the default batched computation. As a highlight, we manage to compute the transducer loss and gradients for a batch size of 1024, and audio length of 40 seconds, using only 6 GB of memory.
translated by 谷歌翻译
子格式微型航空车(MAV)中的准确而敏捷的轨迹跟踪是具有挑战性的,因为机器人的小规模会引起大型模型不确定性,要求强大的反馈控制器,而快速的动力学和计算约束则阻止了计算上昂贵的策略的部署。在这项工作中,我们提出了一种在MIT SoftFly(一个子)MAV(0.7克)上进行敏捷和计算有效轨迹跟踪的方法。我们的策略采用了级联的控制方案,在该方案中,自适应态度控制器与受过训练的神经网络政策相结合,以模仿轨迹跟踪可靠的管模型模型预测控制器(RTMPC)。神经网络政策是使用我们最近的工作获得的,这使该政策能够保留RTMPC的稳健性,但以其计算成本的一小部分。我们通过实验评估我们的方法,即使在更具挑战性的操作中,达到均方根误差也低于1.8 cm,与我们先前的工作相比,最大位置误差减少了60%,并证明了对大型外部干扰的稳健性
translated by 谷歌翻译
我们提出了一个新任务和数据集ScreenQA,以通过问答来理解屏幕内容。现有的屏幕数据集专注于结构和组件级别的理解,或者是更高级别的复合任务(例如导航和任务完成)。我们试图通过注释RICO数据集的80,000多个问题答案对,以弥合这两者之间的差距,以期基于屏幕阅读理解能力。
translated by 谷歌翻译
恶意软件(恶意软件)对我们的设备和生活造成了很大的伤害。我们渴望了解恶意软件的行为及其构成的威胁。恶意软件的大多数记录文件都是可变长度和基于文本的文件,并带有时间戳,例如事件日志数据和动态分析配置文件。使用时间戳,我们可以将此类数据分类为基于序列的数据以进行以下分析。但是,很难处理具有可变长度的基于文本的序列。此外,与自然语言文本数据不同,信息安全性中的大多数顺序数据具有特定的属性和结构,例如循环,重复调用,噪声等,以深入分析API调用序列及其结构,我们使用图表表示序列,可以进一步研究信息和结构,例如马尔可夫模型。因此,我们设计并实施了注意力集中的图形神经网络(AWGCN)来分析API调用序列。通过AWGCN,我们可以获取序列嵌入以分析恶意软件的行为。此外,分类实验结果表明,AWGCN在类似呼叫的数据集中的其他分类器优于其他分类器,并且嵌入可以进一步改善经典模型的性能。
translated by 谷歌翻译
基于学习的导航系统广泛用于自主应用,例如机器人,无人驾驶车辆和无人机。已经提出了专门的硬件加速器,以实现这种导航任务的高性能和能效。然而,硬件系统中的瞬态和永久性故障正在增加,并且可以灾难性地违反任务安全。同时,传统的基于冗余的保护方法挑战,用于部署资源受限的边缘应用。在本文中,我们通过从RL训练和推理的算法,对算法,故障模型和数据类型进行了实验评估导航系统的恢复性。我们进一步提出了两种有效的故障缓解技术,实现了基于学习的导航系统的2倍成功率和39%的飞行质量改进。
translated by 谷歌翻译
在许多临床情况下,迫切需要具有自动呼吸声分析能力的可靠,遥远,连续的实时呼吸声监测仪,例如在监测2019年冠状病毒疾病的疾病进展中,以用手持式听觉仪替换常规的听诊。但是,在实际应用中尚未验证强大的计算机呼吸道声音分析算法。 In this study, we developed a lung sound database (HF_Lung_V1) comprising 9,765 audio files of lung sounds (duration of 15 s each), 34,095 inhalation labels, 18,349 exhalation labels, 13,883 continuous adventitious sound (CAS) labels (comprising 8,457 wheeze labels, 686个Stridor标签和4,740个Rhonchi标签)和15,606个不连续的不定声标签(所有crack带)。我们进行了长期短期记忆(LSTM),门控复发单元(GRU),双向LSTM(BILSTM),双向GRU(BIGRU),卷积神经网络(CNN)-LSTM,CNN-GRU,CNN-BILSTM,CNN-BILSTM,CNN-BILSTM,CNN-BILSTM,CNN-GRU,我们进行了基准测试。和CNN-BIGRU模型用于呼气阶段检测和不定声检测。我们还对基于LSTM的模型,单向模型和双向模型以及带有CNN和CNN的模型之间进行了性能比较。结果表明,这些模型在肺部声音分析中表现出足够的性能。在大多数定义任务中,基于GRU的模型在接收器操作特征曲线下的F1分数和区域上优于基于LSTM的模型。此外,所有双向模型的表现都优于其单向对应物。最后,添加CNN提高了肺部声音分析的准确性,尤其是在CAS检测任务中。
translated by 谷歌翻译