速度控制预测是驾驶员行为分析中一个具有挑战性的问题,旨在预测驾驶员在控制车速(例如制动或加速度)中的未来行动。在本文中,我们尝试仅使用以自我为中心的视频数据来应对这一挑战,与使用第三人称视图数据或额外的车辆传感器数据(例如GPS或两者)的文献中的大多数作品相比。为此,我们提出了一个基于新型的图形卷积网络(GCN)网络,即Egospeed-net。我们的动机是,随着时间的推移,对象的位置变化可以为我们提供非常有用的线索,以预测未来的速度变化。我们首先使用完全连接的图形图将每个类的对象之间的空间关系建模,并在其上应用GCN进行特征提取。然后,我们利用一个长期的短期内存网络将每个类别的此类特征随着时间的流逝融合到矢量中,加入此类矢量并使用多层perceptron分类器预测速度控制动作。我们在本田研究所驾驶数据集上进行了广泛的实验,并证明了Egospeed-NET的出色性能。
translated by 谷歌翻译
大型变压器模型在各种自然语言处理(NLP)任务上显示出令人鼓舞的性能。尽管AI社区已将模型量表扩展到了万亿个参数级别,但由于延迟,吞吐量和内存约束,仍不确定100亿参数模型的实际部署。在本文中,我们提出了Energonai,以解决单个或多GPU系统上有效部署1000亿参数变压器模型的挑战。 Energonai采用层次结构控制器系统体系结构来协调多个设备并有效支持不同的并行模式。它将子模型的执行委托给单个控制器样式的多个工人,并以多控制器样式的工人之间的工人之间的张量并行性和管道并行性。在新的架构上,我们提出了三种技术,即非阻滞管道并行性,分布式冗余计算消除和同行记忆池。 Energonai使用户能够编程复杂的并行代码与串行编码相同。与FertransFormer相比,我们已经证明,Energonai在延迟和吞吐量方面具有较高的性能。在我们的实验中,Energonai可以在张量并行性,管道并行性的10%可伸缩性中实现37%的潜伏期降低,并通过使用较大的异质记忆空间以有限的性能降低的成本来提高对单个GPU推断的模型量表。
translated by 谷歌翻译
虚拟现实(VR)技术通常用于娱乐应用中;但是,它也已在我们生活的更严重方面(例如安全)中部署在实际应用中。为了支持在危险行业工作的人们,VR可以确保操作员操纵标准化的任务并协作以应对潜在的风险。令人惊讶的是,很少的研究重点是人们如何在VR环境中进行协作。很少有研究注意运营商在其协作任务中的认知负荷。一旦任务要求变得复杂,许多研究人员将专注于优化相互作用界面的设计,以减少操作员的认知负载。这种方法可能是有价值的。但是,它实际上可以使操作员承受更重要的认知负担,并可能导致更多的错误和协作失败。在本文中,我们提出了一个新的协作VR系统,以支持在VR环境中工作的两个遥控器,以远程控制未螺旋的地面车辆。我们使用比较的实验来评估协作VR系统,重点是在任务和操作总数上花费的时间。我们的结果表明,在两人组中,操作过程中的过程和操作过程中的认知负荷总数明显低于单人组。我们的研究阐明了设计VR系统的启示,以支持有关远程运营商工作流程的协作工作,而不是简单地优化设计成果。
translated by 谷歌翻译
零射门学习(ZSL)旨在通过将语义知识从看见课程转移到看不见者来识别新颖的课程。从不同类别之间共享的属性描述中学到的语义知识,该属性描述是用于本地化代表歧视区域特征的对象属性的强子指数,从而实现了显着的视觉语义交互。尽管基于注意的模型已经尝试学习单个图像中的这种区域特征,但是通常忽略视觉特征的可转换性和辨别性属性定位。在本文中,我们提出了一个属性引导的变压器网络,称为Transzero,以改进视觉特征,并在ZSL中鉴定鉴别的视觉嵌入表示。具体而言,Transzero采用特征增强编码器来缓解想象集和ZSL基准之间的交叉数据集偏压,并通过减少区域特征之间的缠结的相对几何关系来提高视觉特征的可转换性。为了学习地区增强的可视功能,Transzero使用视觉语义解码器来在语义属性信息的指导下本地化与给定图像中的每个属性最相关的图像区域。然后,用于在视觉语义嵌入网络中进行有效的视觉语义交互来实现局部增强的视觉特征和语义向量。广泛的实验表明,Transzero在三个ZSL基准上实现了新的最新状态。该代码可用于:\ url {https://github.com/shiming-chen/transzero}。
translated by 谷歌翻译
当前适用于摘要的预训练模型容易出现事实矛盾,这些不一致性歪曲了源文本或介绍无关信息。因此,在我们开发改进的模型时,必须比较摘要的事实一致性。但是,事实一致性的最佳人类评估设置尚未标准化。为了解决这个问题,我们使用基于评分的李克特量表和基于排名的最佳缩放协议对事实一致性进行了评估,对来自CNN每日邮件和XSUM数据集的100篇文章以及四个最新的最新最新的XSUM数据集进行了评估。艺术模型,以确定最可靠的评估框架。我们发现,基于排名的协议提供了整个数据集的摘要质量的更可靠度量,而Likert评分的可靠性取决于目标数据集和评估设计。我们的众包模板和摘要评估将公开获得,以促进对摘要中事实一致性的未来研究。
translated by 谷歌翻译
Neural networks are susceptible to data inference attacks such as the membership inference attack, the adversarial model inversion attack and the attribute inference attack, where the attacker could infer useful information such as the membership, the reconstruction or the sensitive attributes of a data sample from the confidence scores predicted by the target classifier. In this paper, we propose a method, namely PURIFIER, to defend against membership inference attacks. It transforms the confidence score vectors predicted by the target classifier and makes purified confidence scores indistinguishable in individual shape, statistical distribution and prediction label between members and non-members. The experimental results show that PURIFIER helps defend membership inference attacks with high effectiveness and efficiency, outperforming previous defense methods, and also incurs negligible utility loss. Besides, our further experiments show that PURIFIER is also effective in defending adversarial model inversion attacks and attribute inference attacks. For example, the inversion error is raised about 4+ times on the Facescrub530 classifier, and the attribute inference accuracy drops significantly when PURIFIER is deployed in our experiment.
translated by 谷歌翻译
With the advancement in computing and robotics, it is necessary to develop fluent and intuitive methods for interacting with digital systems, augmented/virtual reality (AR/VR) interfaces, and physical robotic systems. Hand motion recognition is widely used to enable these interactions. Hand configuration classification and MCP joint angle detection is important for a comprehensive reconstruction of hand motion. sEMG and other technologies have been used for the detection of hand motions. Forearm ultrasound images provide a musculoskeletal visualization that can be used to understand hand motion. Recent work has shown that these ultrasound images can be classified using machine learning to estimate discrete hand configurations. Estimating both hand configuration and MCP joint angles based on forearm ultrasound has not been addressed in the literature. In this paper, we propose a CNN based deep learning pipeline for predicting the MCP joint angles. The results for the hand configuration classification were compared by using different machine learning algorithms. SVC with different kernels, MLP, and the proposed CNN have been used to classify the ultrasound images into 11 hand configurations based on activities of daily living. Forearm ultrasound images were acquired from 6 subjects instructed to move their hands according to predefined hand configurations. Motion capture data was acquired to get the finger angles corresponding to the hand movements at different speeds. Average classification accuracy of 82.7% for the proposed CNN and over 80% for SVC for different kernels was observed on a subset of the dataset. An average RMSE of 7.35 degrees was obtained between the predicted and the true MCP joint angles. A low latency (6.25 - 9.1 Hz) pipeline has been proposed for estimating both MCP joint angles and hand configuration aimed at real-time control of human-machine interfaces.
translated by 谷歌翻译
我们提出了一种新的“泊松流”生成模型(PFGM),该模型将高维半球上的均匀分布映射到任何数据分布中。我们将数据点解释为$ z = 0 $超平面上的电荷,在增加额外尺寸$ z $的空间中,产生了高维电场(泊松方程解决方案的梯度)。我们证明,如果这些电荷沿电场线向上流动,则它们在$ z = 0 $平面中的初始分布将变成半径$ r $半球的分布,该分布在$ r \ to \ infty $限制中变成均匀。为了学习徒的转化,我们估计了增强空间中的归一化场。对于采样,我们设计了一种由物理上有意义的附加尺寸锚定的向后ode:当$ z $达到零时,样本击中了未加重的数据歧管。在实验上,PFGM在CIFAR-10上的正常流量模型中实现了当前的最新性能,其成立分数为9.68美元,而FID得分为2.48美元。它还可以与最先进的SDE方法相同,同时提供$ 10 \ times $至$ 20 \ $ 20 \ times $ $加速图像生成任务。此外,PFGM在较弱的网络体系结构上似乎更宽容估计误差,并且对Euler方法中的步骤大小稳健。该代码可在https://github.com/newbeeer/poisson_flow上找到。
translated by 谷歌翻译
点云注册旨在估计两点云扫描之间的几何变换,在该点对应的估计中是其成功的关键。除了先前通过手工制作或学习的几何特征寻求对应的方法外,最近的点云注册方法还尝试应用RGB-D数据以实现更准确的对应关系。但是,有效地融合了这两种独特方式的几何和视觉信息并不是微不足道的,尤其是对于注册问题而言。在这项工作中,我们提出了一种新的几何感知视觉特征提取器(给出),该提取器采用多尺度的本地线性转换来逐步融合这两种方式,其中深度数据的几何特征是几何依赖于几何依赖的卷积内核来转换RGB数据的视觉功能。最终的视觉几何特征位于典型的特征空间中,由于几何变化引起的视觉差异可缓解,因此可以实现更可靠的对应关系。提出的给出的模块可以很容易地插入最近的RGB-D点云注册框架中。在3D匹配和扫描仪上进行的广泛实验表明,即使没有信件或姿势监督,我们的方法即使在没有通信或姿势的情况下也优于最先进的点云注册方法。该代码可在以下网址获得:https://github.com/514DNA/llt。
translated by 谷歌翻译
具有复发性不对称耦合的神经网络对于了解如何在大脑中编码情节记忆很重要。在这里,我们将广泛的突触整合窗口的实验性观察整合到连续时间动力学中的序列检索模型中。理论上通过得出神经动力学中的雅可比矩阵的随机基质理论来研究具有非正态神经元相互作用的模型。这些光谱具有几个不同的特征,例如围绕原点的旋转对称性以及光谱边界内嵌套空隙的出现。因此,光谱密度高度不均匀地分布在复杂平面中。随机矩阵理论还可以预测过渡到混乱。特别是,混乱的边缘为记忆的顺序检索提供了计算益处。我们的工作提供了与任意时间延迟的时间隔离相关性的系统研究,因此可以激发对广泛记忆模型的未来研究,甚至可以激发生物学时间序列的大数据分析。
translated by 谷歌翻译