通过使用基于动态编程(DP)和深神经网络(DNN)的跟踪器来研究本研究中的制剂跟踪。使用DP方法,比较六种形成六种形成六种方法。六种方法包括线性预测(LP)算法,加权LP算法和最近开发的准闭合前后向后(QCP-FB)方法。 QCP-FB在比较中给出了最佳性能。因此,提出了一种基于QCP-FB的深度学习和信号处理的益处的一种新型格式跟踪方法。在这种方法中,基于DNN的跟踪器从语音帧预测的格式是使用来自同一帧的QCP-FB计算的全极频谱的峰值来改进。结果表明,与参考的格式跟踪器相比,所提出的基于DNN的跟踪器在最低三个塑料中的检测速率和估计误差均更好。例如,与流行的Wavesurefer相比,所提出的跟踪器分别在最低三种矿物的估计误差中减少了29%,48%和35%。
translated by 谷歌翻译
在本文中,我们提出了一种三阶段培训方法,提高低资源语言的语音识别准确性。我们探索并提出了一种有效的技术组合,如传输学习,编码器冻结,使用文本到语音(TTS)和半监督学习(SSL)。为了提高低资源意大利ASR的准确性,我们可以分别利用训练有素的英语模型,未标记的文本语料库和未标记的音频语料库,分别分别使用传输学习,TTS增强和SSL。在第一阶段,我们使用从训练有素的英语模型的转移学习。这主要有助于学习来自资源丰富的语言的声学信息。该阶段通过基线减少约24%的相对字错误率(WER)。在第二阶段,我们通过TTS数据增强利用未标记的文本数据来将语言信息合并到模型中。我们还在此阶段探索冻结声学编码器。 TTS数据增强有助于我们进一步减少〜21%相对〜21%。最后,在第三阶段,我们通过使用来自未标记的音频数据的SSL来减少另一个4%的相对。总体而言,我们的双通话识别系统在第一次通过的单调散文注意力(Mocha)和第二次通过的全部关注,相对于基线,减少了〜42%的WER。
translated by 谷歌翻译
如今,腿部四足机器人的设计和开发是科学研究的一个非常活跃的领域。实际上,由于与其他移动机器人相比,腿部机器人能够适应严峻的地形和各种环境条件,因此变得流行。随着对腿部机器人实验的需求较高,更多的研究和工程师需要一种负担得起,快速的运动算法开发方式。在本文中,我们提出了一个新的开源四倍的机器人超狗平台,该平台具有12个RC伺服电机,NVIDIA JETSON NANO COMPUTER和STM32F4 DISCOVERY板。 HyperDog是四倍的机器人软件开发的开源平台,该平台基于机器人操作系统2(ROS2)和Micro-Ros。此外,HyperDog是完全由3D印刷零件和碳纤维建造的四倍的机器人狗,它使机器人的重量轻和强度良好。这项工作的想法是证明机器人开发的一种负担得起且可定制的方式,并为研究和工程师提供了腿部机器人平台,在该平台中可以在模拟和真实环境中测试和验证不同的算法。具有代码的开发项目可在GitHub(https://github.com/ndhana94/hyperdog_ros2)上获得。
translated by 谷歌翻译
深神网络的对象探测器正在不断发展,并用于多种应用程序,每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性,但低延迟任务需要资源和节能网络。不断提出了实时探测器,在高影响现实世界中是必需的,但是它们过分强调了准确性和速度的提高,而其他功能(例如多功能性,鲁棒性,资源和能源效率)则被省略。现有网络的参考基准不存在,设计新网络的标准评估指南也不存在,从而导致比较模棱两可和不一致的比较。因此,我们对广泛的数据集进行了多个实时探测器(基于锚点,关键器和变压器)的全面研究,并报告了一系列广泛指标的结果。我们还研究了变量,例如图像大小,锚固尺寸,置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性,以防止分配变化,自然腐败和对抗性攻击。此外,我们提供了校准分析来评估预测的可靠性。最后,为了强调现实世界的影响,我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力,我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向,该网络着重于更大而整体的概述,以实现深远的影响。
translated by 谷歌翻译
基于中心的聚类(例如,$ k $ -means,$ k $ -Medians)和使用线性子空间的聚类是两种最受欢迎的技术,可以将真实数据分配到较小的群集中。但是,当数据由敏感人群组组成时,不同敏感组的每点的聚集成本显着不同,可能会导致与公平相关的危害(例如,服务质量不同)。社会公平聚类的目的是最大程度地降低所有组中每点聚类的最大成本。在这项工作中,我们提出了一个统一的框架,以解决社会公平的基于中心的聚类和线性子空间聚类,并为这些问题提供实用,高效的近似算法。我们进行了广泛的实验,以表明在多个基准数据集上,我们的算法要么紧密匹配或超越最先进的基线。
translated by 谷歌翻译
这项研究提供了对僧伽罗文本分类的预训练语言模型的性能的首次全面分析。我们测试了一组不同的Sinhala文本分类任务,我们的分析表明,在包括Sinhala(XLM-R,Labse和Laser)的预训练的多语言模型中,XLM-R是迄今为止Sinhala文本的最佳模型分类。我们还预先培训了两种基于罗伯塔的单语僧伽罗模型,它们远远优于僧伽罗的现有预训练的语言模型。我们表明,在微调时,这些预训练的语言模型为僧伽罗文本分类树立了非常强大的基线,并且在标记数据不足以进行微调的情况下非常强大。我们进一步提供了一组建议,用于使用预训练的模型进行Sinhala文本分类。我们还介绍了新的注释数据集,可用于僧伽罗文本分类的未来研究,并公开发布我们的预培训模型。
translated by 谷歌翻译
与深层神经网络相比,人类较少依赖虚假的相关性和微不足道的提示,例如纹理,从而导致更好的概括和稳健性。它可以归因于先前的知识或大脑中存在的高级认知诱导偏置。因此,将有意义的归纳偏见引入神经网络可以帮助学习更多通用和高级表示,并减轻一些缺点。我们提出痴迷以提炼感应偏见并为神经网络带来形状意识。我们的方法包括一个偏差对准目标,该目标强制执行网络学习更多的通用表示,这些代表不太容易受到数据中意外提示的影响,从而改善了概括性能。依从性不太容易受到捷径学习的影响,并且表现出较低的质地偏见。更好的表示还有助于提高对对抗性攻击的鲁棒性,因此我们无缝地插入了现有的对抗训练方案,以显示概括和稳健性之间的更好权衡。
translated by 谷歌翻译
我们解决了视频动作识别的数据增强问题。视频中的标准增强策略是手工设计的,并随机对可能的增强数据点的空间进行采样,而不知道哪个增强点会更好,或者是通过启发式方法会更好。我们建议学习是什么使良好的视频供行动识别,并仅选择高质量的样本进行增强。特别是,我们选择前景和背景视频的视频合成作为数据增强过程,从而导致各种新样本。我们了解了哪对视频要增加,而无需实际综合它们。这降低了可能的增强空间,这具有两个优势:它节省了计算成本并提高了最终训练的分类器的准确性,因为增强对的质量高于平均水平。我们在整个训练环境中介绍了实验结果:几乎没有射击,半监督和完全监督。我们观察到所有这些都对动力学,UCF101,HMDB51的基准进行了一致的改进,并在设置上实现了有限数据的新最新设置。在半监督环境中,我们看到高达8.6%的改善。
translated by 谷歌翻译
在各种地形上进行运动的能力对于腿部机器人至关重要。但是,机器人必须更好地了解其在不同地形上进行强大运动的表面。动物和人类能够在脚上的触觉感觉的帮助下识别表面。虽然,腿部机器人的脚触觉感觉并没有得到太多探索。本文介绍了针对触觉脚(TSF)的新型四足机器人Dogtouch的研究。 TSF允许使用触觉传感器和卷积神经网络(CNN)识别不同的表面纹理。实验结果表明,我们训练有素的基于CNN的模型的足够验证精度为74.37 \%,对线模式的90 \%\%的识别最高。将来,我们计划通过呈现各种模式深度的表面样本并应用高级深度学习和浅层学习模型来改善预测模型。此外,我们提出了一种新颖的方法,用于导航四倍和腿部机器人。我们可以安排触觉铺路纹理表面(类似于盲人或视障人士)。因此,只需识别将指示直路,左或右转弯,行人穿越,道路等的特定触觉图案,就可以在未知环境中进行运动,无论光线如何,都可以允许强大的导航。配备了视觉和触觉感知系统的未来四足机器人将能够在非结构化的室内和室外环境中安全,智能地导航和交互。
translated by 谷歌翻译
In recent hyperspectral unmixing (HU) literature, the application of deep learning (DL) has become more prominent, especially with the autoencoder (AE) architecture. We propose a split architecture and use a pseudo-ground truth for abundances to guide the `unmixing network' (UN) optimization. Preceding the UN, an `approximation network' (AN) is proposed, which will improve the association between the centre pixel and its neighbourhood. Hence, it will accentuate spatial correlation in the abundances as its output is the input to the UN and the reference for the `mixing network' (MN). In the Guided Encoder-Decoder Architecture for Hyperspectral Unmixing with Spatial Smoothness (GAUSS), we proposed using one-hot encoded abundances as the pseudo-ground truth to guide the UN; computed using the k-means algorithm to exclude the use of prior HU methods. Furthermore, we release the single-layer constraint on MN by introducing the UN generated abundances in contrast to the standard AE for HU. Secondly, we experimented with two modifications on the pre-trained network using the GAUSS method. In GAUSS$_\textit{blind}$, we have concatenated the UN and the MN to back-propagate the reconstruction error gradients to the encoder. Then, in the GAUSS$_\textit{prime}$, abundance results of a signal processing (SP) method with reliable abundance results were used as the pseudo-ground truth with the GAUSS architecture. According to quantitative and graphical results for four experimental datasets, the three architectures either transcended or equated the performance of existing HU algorithms from both DL and SP domains.
translated by 谷歌翻译