In recent hyperspectral unmixing (HU) literature, the application of deep learning (DL) has become more prominent, especially with the autoencoder (AE) architecture. We propose a split architecture and use a pseudo-ground truth for abundances to guide the `unmixing network' (UN) optimization. Preceding the UN, an `approximation network' (AN) is proposed, which will improve the association between the centre pixel and its neighbourhood. Hence, it will accentuate spatial correlation in the abundances as its output is the input to the UN and the reference for the `mixing network' (MN). In the Guided Encoder-Decoder Architecture for Hyperspectral Unmixing with Spatial Smoothness (GAUSS), we proposed using one-hot encoded abundances as the pseudo-ground truth to guide the UN; computed using the k-means algorithm to exclude the use of prior HU methods. Furthermore, we release the single-layer constraint on MN by introducing the UN generated abundances in contrast to the standard AE for HU. Secondly, we experimented with two modifications on the pre-trained network using the GAUSS method. In GAUSS$_\textit{blind}$, we have concatenated the UN and the MN to back-propagate the reconstruction error gradients to the encoder. Then, in the GAUSS$_\textit{prime}$, abundance results of a signal processing (SP) method with reliable abundance results were used as the pseudo-ground truth with the GAUSS architecture. According to quantitative and graphical results for four experimental datasets, the three architectures either transcended or equated the performance of existing HU algorithms from both DL and SP domains.
translated by 谷歌翻译
如今,腿部四足机器人的设计和开发是科学研究的一个非常活跃的领域。实际上,由于与其他移动机器人相比,腿部机器人能够适应严峻的地形和各种环境条件,因此变得流行。随着对腿部机器人实验的需求较高,更多的研究和工程师需要一种负担得起,快速的运动算法开发方式。在本文中,我们提出了一个新的开源四倍的机器人超狗平台,该平台具有12个RC伺服电机,NVIDIA JETSON NANO COMPUTER和STM32F4 DISCOVERY板。 HyperDog是四倍的机器人软件开发的开源平台,该平台基于机器人操作系统2(ROS2)和Micro-Ros。此外,HyperDog是完全由3D印刷零件和碳纤维建造的四倍的机器人狗,它使机器人的重量轻和强度良好。这项工作的想法是证明机器人开发的一种负担得起且可定制的方式,并为研究和工程师提供了腿部机器人平台,在该平台中可以在模拟和真实环境中测试和验证不同的算法。具有代码的开发项目可在GitHub(https://github.com/ndhana94/hyperdog_ros2)上获得。
translated by 谷歌翻译
这项研究提供了对僧伽罗文本分类的预训练语言模型的性能的首次全面分析。我们测试了一组不同的Sinhala文本分类任务,我们的分析表明,在包括Sinhala(XLM-R,Labse和Laser)的预训练的多语言模型中,XLM-R是迄今为止Sinhala文本的最佳模型分类。我们还预先培训了两种基于罗伯塔的单语僧伽罗模型,它们远远优于僧伽罗的现有预训练的语言模型。我们表明,在微调时,这些预训练的语言模型为僧伽罗文本分类树立了非常强大的基线,并且在标记数据不足以进行微调的情况下非常强大。我们进一步提供了一组建议,用于使用预训练的模型进行Sinhala文本分类。我们还介绍了新的注释数据集,可用于僧伽罗文本分类的未来研究,并公开发布我们的预培训模型。
translated by 谷歌翻译
在各种地形上进行运动的能力对于腿部机器人至关重要。但是,机器人必须更好地了解其在不同地形上进行强大运动的表面。动物和人类能够在脚上的触觉感觉的帮助下识别表面。虽然,腿部机器人的脚触觉感觉并没有得到太多探索。本文介绍了针对触觉脚(TSF)的新型四足机器人Dogtouch的研究。 TSF允许使用触觉传感器和卷积神经网络(CNN)识别不同的表面纹理。实验结果表明,我们训练有素的基于CNN的模型的足够验证精度为74.37 \%,对线模式的90 \%\%的识别最高。将来,我们计划通过呈现各种模式深度的表面样本并应用高级深度学习和浅层学习模型来改善预测模型。此外,我们提出了一种新颖的方法,用于导航四倍和腿部机器人。我们可以安排触觉铺路纹理表面(类似于盲人或视障人士)。因此,只需识别将指示直路,左或右转弯,行人穿越,道路等的特定触觉图案,就可以在未知环境中进行运动,无论光线如何,都可以允许强大的导航。配备了视觉和触觉感知系统的未来四足机器人将能够在非结构化的室内和室外环境中安全,智能地导航和交互。
translated by 谷歌翻译
通过使用基于动态编程(DP)和深神经网络(DNN)的跟踪器来研究本研究中的制剂跟踪。使用DP方法,比较六种形成六种形成六种方法。六种方法包括线性预测(LP)算法,加权LP算法和最近开发的准闭合前后向后(QCP-FB)方法。 QCP-FB在比较中给出了最佳性能。因此,提出了一种基于QCP-FB的深度学习和信号处理的益处的一种新型格式跟踪方法。在这种方法中,基于DNN的跟踪器从语音帧预测的格式是使用来自同一帧的QCP-FB计算的全极频谱的峰值来改进。结果表明,与参考的格式跟踪器相比,所提出的基于DNN的跟踪器在最低三个塑料中的检测速率和估计误差均更好。例如,与流行的Wavesurefer相比,所提出的跟踪器分别在最低三种矿物的估计误差中减少了29%,48%和35%。
translated by 谷歌翻译
使用胶囊网络的原始点云处理在分类,重建和分割中被广泛采用,因为它能够保留输入数据的空间协议。然而,基于现有的大多数基于胶囊的网络方法是计算繁重的,并且在将整个点云作为单个胶囊代表整个点云。我们通过提出具有参数共享的小说卷积胶囊架构,通过提出Pointcaps来解决现有的胶囊网络基础方法的这些限制。除了点击措施之外,我们提出了一种新颖的欧几里德距离路由算法和独立于独立的潜在潜在表示。潜在的表示捕获了点云的物理解释的几何参数,具有动态欧几里德路由,Pointcaps阱 - 代表点的空间(点对部分)关系。 Pointcaps的参数具有显着较低的参数,并且需要显着较低的拖鞋,同时实现与最先进的胶囊网络相比,对原始点云的可比分类和分割精度实现更好的重建。
translated by 谷歌翻译
在本文中,我们提出了一种三阶段培训方法,提高低资源语言的语音识别准确性。我们探索并提出了一种有效的技术组合,如传输学习,编码器冻结,使用文本到语音(TTS)和半监督学习(SSL)。为了提高低资源意大利ASR的准确性,我们可以分别利用训练有素的英语模型,未标记的文本语料库和未标记的音频语料库,分别分别使用传输学习,TTS增强和SSL。在第一阶段,我们使用从训练有素的英语模型的转移学习。这主要有助于学习来自资源丰富的语言的声学信息。该阶段通过基线减少约24%的相对字错误率(WER)。在第二阶段,我们通过TTS数据增强利用未标记的文本数据来将语言信息合并到模型中。我们还在此阶段探索冻结声学编码器。 TTS数据增强有助于我们进一步减少〜21%相对〜21%。最后,在第三阶段,我们通过使用来自未标记的音频数据的SSL来减少另一个4%的相对。总体而言,我们的双通话识别系统在第一次通过的单调散文注意力(Mocha)和第二次通过的全部关注,相对于基线,减少了〜42%的WER。
translated by 谷歌翻译
视频中的实时和在线行动本地化是一个关键但极具挑战性的问题。准确的行动定位需要利用时间和空间信息。最近的尝试通过使用计算密集的3D CNN架构或高度冗余的双流架构来实现这一目标,使它们既不适用于实时在线应用程序。为了在高度挑战的实时约束下完成活动本地化,我们提出利用基于快速高效的关键点的边界框预测到空间本地化动作。然后,我们介绍一种管链接算法,其在闭塞存在下在时间上保持动作管的连续性。此外,我们通过将时间和空间信息与级联输入组合到单个网络的级联输入来消除对双流架构的需要,允许网络从两种类型的信息中学习。使用结构相似索引图有效地提取了时间信息,而不是计算密集的光学流量。尽管我们的方法简单,我们的轻质端到端架构在挑战的UCF101-24数据集上实现了最先进的框架地图,达到了74.7%,展示了以前最好的在线方法的性能增益为6.4% 。与在线和离线方法两者相比,我们还实现了最先进的视频地图结果。此外,我们的模型实现了41.8 FPS的帧速率,这是对当代实时方法的10.7%。
translated by 谷歌翻译
我们研究了参考游戏(一种信令游戏),其中两个代理通过离散瓶颈互相通信,以实现共同的目标。在我们的参照游戏中,扬声器的目标是撰写消息或符号表示“重要的”图像修补程序,而侦听器的任务是将扬声器的消息与相同图像的不同视图匹配。我们表明,这两个代理确实可以在不明确或隐含监督的情况下开发通信协议。我们进一步调查了开发的协议,并通过仅使用重要补丁来展示加速最近的视觉变压器的应用程序,以及用于下游识别任务的预训练(例如,分类)。代码在https://github.com/kampta/patchgame提供。
translated by 谷歌翻译
自动驾驶正在快速推进,级别2个功能正在成为标准功能。最重要的休假之一是在苛刻的天气和低光条件下获得强大的视觉感知,其中精度降解严重。在这些场景期间,具有天气分类模型将降低视觉感知信心至关重要。因此,我们已经为天气(雾,雨,雪)分类和光线(明亮,适度,低)分类建造了新的数据集。此外,我们提供街道类型(沥青,草和鹅卵石)分类,导致9个标签。每个图像都有三个标签,对应天气,光线水平和街道类型。我们录制了利用RCCC(RED / CLEAR)格式的工业前置摄像头的数据,分辨率为1024 \ times1084 $。我们收集了15k视频序列和采样的60K图像。我们实现了一个主动学习框架,以减少数据集的冗余,并找到用于训练模型的最佳帧集。我们将60K图像进一步蒸馏到1.1K图像,这将在隐私匿名化之后公开分享。没有公共数据集的天气和光线分类,专注于自动驾驶到我们的知识。用于天气分类的基线ResET18网络实现了最先进的导致两种非汽车天气分类公共数据集,但在我们提出的数据集中明显降低了准确性,证明它不是饱和的,需要进一步研究。
translated by 谷歌翻译