现代自动驾驶汽车在很大程度上依赖机械激光雷达。当前的感知方法通常需要360 {\ deg}点云,随着激光雷达扫描方位角并获得连续的楔形切片,依次收集。全面扫描(〜100ms)的采集潜伏期可能导致过时的感知,这不利于安全操作。最近提出的流媒体感知作品直接处理LiDAR切片并通过以前的切片重复使用特征来补偿切片的狭窄视野(FOV)。但是,这些作品都是基于单一模式的,并且需要过去的信息可能过时。同时,高频摄像头的图像可以支持流型模型,因为它们提供了更大的FOV与LiDAR片相比。但是,FOV中的这种差异使传感器融合复杂化。为了解决这一研究差距,我们提出了一个创新的摄像头流媒体3D对象检测框架,该框架使用摄像头图像而不是过去的LiDAR切片来提供最新,密集和广泛的上下文,以进行流媒体感知。所提出的方法在挑战性的Nuscenes基准测试上优于先前的流媒体模型。它还胜过强大的全扫描探测器,同时更快。我们的方法证明对缺少相机图像,狭窄的雷达切片和小型摄像机劳动错误校准具有强大的功能。
translated by 谷歌翻译
多标签图像分类旨在预测图像中的所有可能标签。考虑到在每个培训图像中注释所有标签可能是昂贵的,通常将其作为部分标签的学习问题。关于部分标签学习的现有作品集中在每个训练图像只有其标签的子集注释的情况下。一种特殊情况是在每个训练图像中仅注释一个正标签。为了进一步减轻注释负担并增强了分类器的性能,本文提出了一个新的部分标签设置,其中仅标记了训练图像的一个子集,每个图像只有一个正面标签,而其余的培训图像仍保留未标记。为了处理这个新设置,我们建议一个端到端的深层网络PLMCL(部分标签动量课程学习),可以学会为部分标记和未标记的培训图像生成自信的伪标签。基于动量的新法律通过考虑更新伪标签的速度,更新每个训练图像上的软伪标签,这些标签的更新有助于避免捕获到低信心的本地最低限度,尤其是在培训的早期阶段,由于缺乏观察到的标签和培训的早期阶段对伪标签的信心。此外,我们还提出了一个信心的调度程序,以适应性地对不同标签进行易于锻炼的学习。广泛的实验表明,我们提出的PLMCL在三个不同数据集上的各个部分标签设置下优于许多最先进的多标签分类方法。
translated by 谷歌翻译
基于注意力的神经网络在许多AI任务中都普遍存在。尽管其出色的算法性能,但注意力机制和前馈网络(FFN)的使用仍需要过多的计算和内存资源,这通常会损害其硬件性能。尽管已经引入了各种稀疏变体,但大多数方法仅着重于缓解算法级别上的二次注意力缩放,而无需明确考虑将其方法映射到真实硬件设计上的效率。此外,大多数努力仅专注于注意机制或FFN,但没有共同优化这两个部分,导致当前的大多数设计在处理不同的输入长度时缺乏可扩展性。本文从硬件角度系统地考虑了不同变体中的稀疏模式。在算法级别上,我们提出了Fabnet,这是一种适合硬件的变体,它采用统一的蝴蝶稀疏模式来近似关注机制和FFN。在硬件级别上,提出了一种新颖的适应性蝴蝶加速器,可以在运行时通过专用硬件控件配置,以使用单个统一的硬件引擎加速不同的蝴蝶层。在远程 - ARENA数据集上,FabNet达到了与香草变压器相同的精度,同时将计算量减少10到66次,参数数量为2至22次。通过共同优化算法和硬件,我们的基于FPGA的蝴蝶加速器在归一化到同一计算预算的最新加速器上达到了14.2至23.2倍的速度。与Raspberry Pi 4和Jetson Nano上优化的CPU和GPU设计相比,我们的系统在相同的功率预算下的最大273.8和15.1倍。
translated by 谷歌翻译
在过去的十年中,在线教育在为全球学生提供负担得起的高质量教育方面的重要性越来越重要。随着越来越多的学生改用在线学习,这在全球大流行期间得到了进一步放大。大多数在线教育任务,例如课程建议,锻炼建议或自动化评估,都取决于跟踪学生的知识进步。这被称为文献中的\ emph {知识跟踪}问题。解决此问题需要收集学生评估数据,以反映他们的知识演变。在本文中,我们提出了一个新的知识跟踪数据集,名为“知识跟踪数据库”练习(DBE-KT22),该练习是在澳大利亚澳大利亚国立大学教授的课程中从在线学生锻炼系统中收集的。我们讨论了DBE-KT22数据集的特征,并将其与知识追踪文献中的现有数据集进行对比。我们的数据集可通过澳大利亚数据存档平台公开访问。
translated by 谷歌翻译
到2035年,美国电力部门的转型正在进行中,以实现100%无碳污染的电力,以实现这一目标,同时保持安全可靠的电网,需要新的操作范式,以快速准确的决策来制定新的操作范式在动态和不确定的环境中。我们为动态网格重新配置(PHML-DYR)的决策提出了一个新颖的物理知识的机器学习框架,这是电源系统中的关键任务。动态重新配置(DYR)是一个动态设置开关状态的过程,从而导致最佳网格拓扑,从而最大程度地减少线路损耗。为了解决由于决策变量的混合性质而导致的NP硬度的潜在计算复杂性,我们建议使用物理信息信息的ML(PHML),该物理信息(PHML)将操作约束以及拓扑结构和连接性约束集成到神经网络框架中。我们的PHML方法学会同时优化网格拓扑和发电机调度,以满足负载,提高效率并保持在安全的操作范围内。我们证明了PHML-DYR在规范网格上的有效性,显示电力损耗的减少23%,并改善了电压曲线。我们还显示了使用PHML-DYR的数量级以及训练时间的约束违规行为的减少。
translated by 谷歌翻译
在文本分类模型由于数据变化而随着时间的变化而下降的情况下,其持续时间持续时间的模型的开发很重要。预测模型随着时间的推移能力的能力可以帮助设计模型,这些模型可以在更长的时间内有效使用。在本文中,我们通过评估各种语言模型和分类算法随着时间的推移持续存在的能力,以及数据集特性如何帮助预测不同模型的时间稳定性,从而研究了这个问题。我们在跨越6到19年的三个数据集上执行纵向分类实验,并涉及各种任务和类型的数据。我们发现,人们可以根据(i)模型在限制时间段内的性能及其外推到更长的时间段,以及(ii)数据集的语言特征,以及(ii)数据集的语言特征,如何估算模型如何在时间上保持其性能。例如不同年份的子集之间的熟悉程度。这些实验的发现对文本分类模型的设计具有重要意义,目的是保留随着时间的推移性能。
translated by 谷歌翻译
本文解决了3D人类姿势估计模型的交叉数据集泛化问题。在新数据集上测试预先训练的3D姿势估计值会导致主要的性能下降。以前的方法主要通过改善培训数据的多样性来解决这个问题。我们认为单独的多样性是不够的,并且训练数据的特征需要适应新数据集的那些,例如相机观点,位置,人类动作和体型。为此,我们提出了一种完全的端到端框架,该端到端框架从源数据集生成合成3D人体运动,并使用它们来微调3D姿势估计器。适配遵循对抗培训计划。来自源3D构成发电机生成一系列3D姿势和用于将生成的姿势投影到新颖视图的相机方向。如果没有任何3D标签或相机信息,则成功地学习从目标数据集创建合成3D构成,同时仅在2D姿势培训。在Human3.6m,MPI-INF-3DHP,3DPW和SKI-Pose数据集的实验中,我们的方法优于跨数据集评估的先前工作14%和以前的半监督学习方法,使用部分3D注释达到16%。
translated by 谷歌翻译
多项式方程系统经常在计算机视觉中产生,特别是在多视图几何问题中。用于解决这些系统的传统方法通常旨在消除变量达到单变量多项式,例如5点姿势估计的第十阶多项式,使用巧妙的操纵,或者更普遍使用Grobner基础,结果和消除模板,导致多视图几何和其他问题的成功算法。然而,当问题复杂时,这些方法不起作用,当他们这样做时,它们面临效率和稳定性问题。同型延续(HC)可以解决更复杂的问题而没有稳定性问题,并且保证全球解决方案,但已知它们是缓慢的。在本文中,我们表明HC可以在GPU上并行化,在多项式基准测试中显示出高达26倍的显着加速。我们还表明,GPU-HC可以在一系列计算机视觉问题上应用于一系列计算机视觉问题,包括具有未知焦距的4视图三角测量和三焦点姿态估计,其无法用消除模板解决,但它们可以用HC有效地解决它们。 GPU-HC打开门,以轻松配方和解决一系列计算机视觉问题。
translated by 谷歌翻译
使用本机LUT作为独立培训推理运营商的FPGA特定的DNN架构已被证明实现了有利的区域准确性和能量准确性权衡。该领域的第一个工作Lutnet,对标准DNN基准测试表现出最先进的性能。在本文中,我们提出了学习的基于LUT的拓扑结构的优化,从而导致更高效率的设计,而不是通过直接使用现成的手工设计的网络。本类架构的现有实现需要手动规范的每拉特的输入数,K。选择合适的k先验是具有挑战性的,并且在甚至高粒度下这样做,例如,如此。每个层,是一种耗时和错误的过程,可以留下FPGA的空间灵活性欠缺。此外,先验工作请参阅随机连接的LUT输入,不保证网络拓扑的良好选择。为了解决这些问题,我们提出了逻辑收缩,一种细粒度的网格剪枝方法,使K将自动学习,用于针对FPGA推理的神经网络中的每一个LUT。通过删除确定为低于重要性的LUT输入,我们的方法会增加所得加速器的效率。我们的GPU友好的LUT输入拆卸解决方案能够在培训期间加工大型拓扑,可忽略不计的放缓。通过逻辑收缩,我们可以分别更好地完成CNV网络的最佳Lutnet实现的区域和能源效率,分别将CIFAR-10分别达到1.54倍和1.31倍,同时匹配其精度。该实现也达到2.71倍的区域效率同样准确,严重修剪的BNN。在具有双重净架构的Imagenet上,逻辑收缩的就业导致综合后面积减少2.67倍VS Lutnet,允许以前在今天最大的FPGA上实现的实施。
translated by 谷歌翻译
社交媒体平台为挖掘公众舆论提供了众多社会兴趣问题的金矿。意见采矿是一个问题,可以通过捕获和汇总各个社交媒体职位的立场,作为支持,反对或者在手头上的问题上进行。虽然大多数姿态检测工作已经调查了具有有限时间覆盖率的数据集,但最近提高了调查纵向数据集的兴趣。在新数据中观察到的语言和行为模式中的演变动态,依次适应姿态检测系统来处理变化。在本调查论文中,我们研究了计算语言学与数字媒体人类交流的交叉口。在考虑动态的新兴研究中,我们在探索不同的语义和语用因素,探讨了影响语言数据的不同语义和语用因素,特别是审查。我们进一步讨论了在社交媒体中捕获姿态动态的当前方向。我们组织处理姿态动态的挑战,确定公开挑战,并在三个关键方面讨论未来的方向:话语,背景和影响。
translated by 谷歌翻译