在视频中,人类的行为是三维(3D)信号。这些视频研究了人类行为的时空知识。使用3D卷积神经网络(CNN)研究了有希望的能力。 3D CNN尚未在静止照片中为其建立良好的二维(2D)等效物获得高输出。董事会3D卷积记忆和时空融合面部训练难以防止3D CNN完成非凡的评估。在本文中,我们实施了混合深度学习体系结构,该体系结构结合了Stip和3D CNN功能,以有效地增强3D视频的性能。实施后,在每个时空融合圈中进行训练的较详细和更深的图表。训练模型在处理模型的复杂评估后进一步增强了结果。视频分类模型在此实现模型中使用。引入了使用深度学习的多媒体数据分类的智能3D网络协议,以进一步了解人类努力中的时空关联。在实施结果时,著名的数据集(即UCF101)评估了提出的混合技术的性能。结果击败了提出的混合技术,该混合动力技术基本上超过了最初的3D CNN。将结果与文献的最新框架进行比较,以识别UCF101的行动识别,准确度为95%。
translated by 谷歌翻译
Previous work has shown that a neural network with the rectified linear unit (ReLU) activation function leads to a convex polyhedral decomposition of the input space. These decompositions can be represented by a dual graph with vertices corresponding to polyhedra and edges corresponding to polyhedra sharing a facet, which is a subgraph of a Hamming graph. This paper illustrates how one can utilize the dual graph to detect and analyze adversarial attacks in the context of digital images. When an image passes through a network containing ReLU nodes, the firing or non-firing at a node can be encoded as a bit ($1$ for ReLU activation, $0$ for ReLU non-activation). The sequence of all bit activations identifies the image with a bit vector, which identifies it with a polyhedron in the decomposition and, in turn, identifies it with a vertex in the dual graph. We identify ReLU bits that are discriminators between non-adversarial and adversarial images and examine how well collections of these discriminators can ensemble vote to build an adversarial image detector. Specifically, we examine the similarities and differences of ReLU bit vectors for adversarial images, and their non-adversarial counterparts, using a pre-trained ResNet-50 architecture. While this paper focuses on adversarial digital images, ResNet-50 architecture, and the ReLU activation function, our methods extend to other network architectures, activation functions, and types of datasets.
translated by 谷歌翻译
Efficient data transfers over high-speed, long-distance shared networks require proper utilization of available network bandwidth. Using parallel TCP streams enables an application to utilize network parallelism and can improve transfer throughput; however, finding the optimum number of parallel TCP streams is challenging due to nondeterministic background traffic sharing the same network. Additionally, the non-stationary, multi-objectiveness, and partially-observable nature of network signals in the host systems add extra complexity in finding the current network condition. In this work, we present a novel approach to finding the optimum number of parallel TCP streams using deep reinforcement learning (RL). We devise a learning-based algorithm capable of generalizing different network conditions and utilizing the available network bandwidth intelligently. Contrary to rule-based heuristics that do not generalize well in unknown network scenarios, our RL-based solution can dynamically discover and adapt the parallel TCP stream numbers to maximize the network bandwidth utilization without congesting the network and ensure fairness among contending transfers. We extensively evaluated our RL-based algorithm's performance, comparing it with several state-of-the-art online optimization algorithms. The results show that our RL-based algorithm can find near-optimal solutions 40% faster while achieving up to 15% higher throughput. We also show that, unlike a greedy algorithm, our devised RL-based algorithm can avoid network congestion and fairly share the available network resources among contending transfers.
translated by 谷歌翻译
As a special type of transformer, Vision Transformers (ViTs) are used to various computer vision applications (CV), such as image recognition. There are several potential problems with convolutional neural networks (CNNs) that can be solved with ViTs. For image coding tasks like compression, super-resolution, segmentation, and denoising, different variants of the ViTs are used. The purpose of this survey is to present the first application of ViTs in CV. The survey is the first of its kind on ViTs for CVs to the best of our knowledge. In the first step, we classify different CV applications where ViTs are applicable. CV applications include image classification, object detection, image segmentation, image compression, image super-resolution, image denoising, and anomaly detection. Our next step is to review the state-of-the-art in each category and list the available models. Following that, we present a detailed analysis and comparison of each model and list its pros and cons. After that, we present our insights and lessons learned for each category. Moreover, we discuss several open research challenges and future research directions.
translated by 谷歌翻译
图像质量评估(IQA)指标被广泛用于定量估计一些形成,恢复,转换或增强算法后图像降解的程度。我们提出了Pytorch图像质量(PIQ),这是一个以可用性为中心的库,其中包含最受欢迎的现代IQA算法,并保证根据其原始命题正确实现并进行了彻底验证。在本文中,我们详细介绍了图书馆基础背后的原则,描述了使其可靠的评估策略,提供了展示性能时间权衡的基准,并强调了GPU加速的好处Pytorch后端。Pytorch图像质量是一个开源软件:https://github.com/photosynthesis-team/piq/。
translated by 谷歌翻译
该研究检查了通过计算过滤方法Kalman滤波技术(KFT)预测短期交通流量的数量。短期流量预测是交通管理和运输系统运营的重要工具。短期交通流值结果可用于按路线指导和高级旅行者信息系统进行旅行时间估算。尽管KFT已经测试过均匀的流量,但其异质交通效率尚未研究。这项研究是在索班巴格清真寺附近达卡的米尔普尔路进行的。该流包含流量的异质组合,这意味着预测的不确定性。该命题方法使用Pykalman库在Python中执行。该库主要用于KFT框架中的高级数据库建模,该模型解决了不确定性。数据源自车辆的三个小时的交通计数。根据2005年孟加拉国公路和公路部(RHD)出版的《几何设计标准手册》,将异质的交通流量转换为同等的乘用车单元(PCU)。然后将从五分钟聚合获得的PCU用作建议的模型的数据集。命题模型的平均绝对百分比误差(MAPE)为14.62,表明KFT模型可以很好地预测。根平方百分比误差(RMSPE)显示出18.73%的精度,小于25%;因此,该模型是可以接受的。开发的模型的R2值为0.879,表明它可以解释数据集中可变性的87.9%。如果在更长的时间内收集数据,则R2值可能接近1.0。
translated by 谷歌翻译
软件错误预测预测是一个活跃的研究领域,许多因素影响了预测性能。但是,除了一项初始工作外,尚未研究学习方法(即,用于培训和预测目标变量的数据的细节)对预测性能的影响。本文探讨了两种学习方法的影响,即Useallpredictall和usePredictPost,对软件错误预测预测的性能,包括释放内部和跨释放。经验结果基于从十二个开源项目的64个版本中提取的数据。结果表明,学习方法对分类表现有实质性的,通常未被承认的影响。具体而言,使用USEALLPREDICTALL导致的性能要比使用释放和跨释放的UsePrepredictPost学习方法要好得多。此外,本文发现,对于释放内部预测,分类性能的这种差异是由于两种学习方法中的类不平衡级别引起的。解决课堂失衡时,消除了学习方法之间的性能差异。我们的发现暗示,应始终明确识别学习方法及其对软件缺陷预订预测的影响。本文最后讨论了我们的研究和实践结果的潜在后果。
translated by 谷歌翻译
在不久的将来,自动驾驶的开发将变得更加复杂,因为这些车辆不仅会依靠自己的传感器,而且还与其他车辆和基础设施进行交流以合作和改善驾驶体验。为此,需要进行一些研究领域,例如机器人技术,沟通和控制,以实施未来的方法。但是,每个领域首先关注其组件的开发,而组件可能对整个系统产生的影响仅在后期考虑。在这项工作中,我们集成了机器人技术,通信和控制的仿真工具,即ROS2,Omnet ++和MATLAB来评估合作驾驶场景。可以利用该框架使用指定工具来开发各个组件,而最终评估可以在完整的情况下进行,从而可以模拟高级多机器人应用程序以进行合作驾驶。此外,它可以用于集成其他工具,因为集成以模块化方式完成。我们通过在合作自适应巡航控制(CACC)和ETSI ITS-G5通信体系结构下展示排量场景来展示该框架。此外,我们比较了理论分析和实际案例研究之间控制器性能的差异。
translated by 谷歌翻译
图像质量评估(IQA)算法旨在再现人类对图像质量的看法。图像增强,生成和恢复模型的日益普及促使开发了许多方法来评估其性能。但是,大多数IQA解决方案旨在预测通用域中的图像质量,并适用于特定区域,例如医学成像,保持可疑。此外,对于特定任务的这些IQA指标的选择通常涉及故意引起的扭曲,例如手动添加噪声或人工模糊。然而,随后选择的指标被用来判断现实生活中计算机视觉模型的输出。在这项工作中,我们渴望通过对迄今为止的磁共振成像(MRI)进行最广泛的IQA评估研究来填补这些空白(14,700个主观得分)。我们使用经过培训的神经网络模型的输出,以解决与MRI相关的问题,包括扫描加速度,运动校正和DENOSISING中的图像重建。我们的重点是反映放射科医生对重建图像的看法,评估了MRI扫描质量的最具诊断性影响的标准:信噪比,对比度与噪声比率和人工制品的存在。七位训练有素的放射科医生评估了这些扭曲的图像,其判决随后与35个不同的图像质量指标(考虑到全参考,无参考和基于分布的指标)相关。对于所有被认为是解剖学和目标任务的三个拟议质量标准,发现最高的表现者 - DIST,HAARPSI,VSI和FID-VGG16 - 在三个提出的质量标准中都是有效的。
translated by 谷歌翻译
建立针对双狭窄的动脉模型的计算流体动力学(CFD)的患者特异性有限元分析(FEA)模型涉及时间和努力,限制医生在时间关键时间医疗应用中快速响应的能力。这些问题可能通过培训深度学习(DL)模型来解决,以使用由具有不同配置的简化双韵动脉模型的CFD模拟产生的数据集来学习和预测血流特性。当通过从IVUS成像的实际双狭窄的动脉模型进行血液流动模式时,揭示了狭窄的颈部几何形状的正弦逼近,这些颈部几何形状被广泛用于先前的研究作品,未能有效地代表真实的效果收缩。结果,提出了一种收缩颈的新型几何表示,其就广义简化模型而言,这始终是前者的假设。动脉腔直径和流量参数的顺序变化沿着船长的长度呈现使用LSTM和GRU DL模型的机会。然而,对于短长度的倍增血液动脉的小数据集,基本神经网络模型优于大多数流动性质的专用RNN。另一方面,LSTM对预测具有大波动的流动性能更好,例如在血管的长度上变化血压。尽管在数据集中的船舶的所有属性训练和测试方面具有良好的整体准确性,但GRU模型在所有情况下为单个血管流预测的表现不佳。结果还指向任何模型中每个属性的单独优化的超级参数,而不是旨在通过单一的HyperParameters来实现所有输出的整体良好性能。
translated by 谷歌翻译