道路网络是连接和自动车辆的核心基础设施,但为机器学习应用程序创建有意义的表示是一个具有挑战性的任务。在这项工作中,我们建议将遥感视觉数据集成到道路网络数据中,以改进具有图形神经网络的嵌入式。我们基于时空道路和交通特性提出了道路边缘的分割,这允许通过卫星图像和数字表面模型的视觉特征来丰富一组道路网络。我们展示了这两者,分段和视觉数据的整合可以提高道路类型分类任务的性能,我们在中国成都的OSM + Didi Chuxing DataSet上实现了最先进的表现。
translated by 谷歌翻译
视频动作细分和识别任务已广泛应用于许多领域。大多数先前的研究都采用了大规模的高计算视觉模型来全面了解视频。但是,很少有研究直接采用图形模型来推理视频。该图模型提供了更少的参数,低计算成本,大型接受场和灵活的邻域消息聚合的好处。在本文中,我们提出了一个名为Smatantic2Graph的基于图的方法,以将视频动作分割和识别问题转变为图的节点分类。为了保留视频中的细粒关系,我们在框架级别上构建视频的图形结构,并设计了三种类型的边缘:时间,语义和自循环。我们将视觉,结构和语义特征与节点属性相结合。语义边缘用于建模长期时空关系,而语义特征是基于文本提示的标签文本的嵌入。图形神经网络(GNN)模型用于学习多模式特征融合。实验结果表明,与最先进的结果相比,语义2Graph在GTEA和50萨拉德方面取得了改善。多次消融实验进一步证实了语义特征在改善模型性能方面的有效性,语义边缘使Smantic2Grapl可以以低成本捕获长期依赖性。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
检测,预测和减轻交通拥堵是针对改善运输网络的服务水平的目标。随着对更高分辨率的更大数据集的访问,深度学习对这种任务的相关性正在增加。近年来几篇综合调查论文总结了运输领域的深度学习应用。然而,运输网络的系统动态在非拥挤状态和拥塞状态之间变化大大变化 - 从而需要清楚地了解对拥堵预测特异性特异性的挑战。在这项调查中,我们在与检测,预测和缓解拥堵相关的任务中,介绍了深度学习应用的当前状态。重复和非经常性充血是单独讨论的。我们的调查导致我们揭示了当前研究状态的固有挑战和差距。最后,我们向未来的研究方向提出了一些建议,因为所确定的挑战的答案。
translated by 谷歌翻译
准确的交通预测是使流量管理等流量管理的关键要素,例如重新路由汽车减少道路拥堵或通过动态速度限制来调节流量以保持稳定的流量。表示流量数据的一种方法是以时间更改的热图可视化流量的属性(例如速度和音量)的形式。在最近的作品中,U-NET模型在热图预测的交通预测上显示了SOTA性能。我们建议将U-NET体系结构与图层相结合,该层面可以改善与香草U-NET相比,将空间概括到看不见的道路网络。特别是,我们专门将现有的图形操作对地理拓扑敏感,并概括合并和升级操作以适用于图形。
translated by 谷歌翻译
LIDAR(“光检测和测距”或“激光成像,检测和测距”)技术可用于提供城市和农村景观的详细三维高度地图。迄今为止,空气传播的激光雷达成像主要被限制在环境和考古域中。然而,该数据的地理上粒度和开放源特性也为使用了地理人口类型数据的社会,组织和业务应用程序。具体地,处理该多维数据的复杂性迄今为止涉及其更广泛的采用。在本文中,我们提出了一系列方便的任务无关瓷砖高程嵌入来解决这一挑战,利用无监督深度学习的最新进展。通过预测大伦敦地区的小型地区,通过预测七个剥夺指数(2019年)来测试我们嵌入的潜力。这些索引涵盖了一系列社会经济结果,并作为可以应用嵌入的各种下游任务的代理。我们考虑不仅仅是独立于自己的数据的适用性,而且与人口统计特征结合使用,也可以作为辅助数据源,从而为嵌入品提供了一个现实用例。在尝试各种模型/嵌入配置中,我们发现我们最好的表现嵌入式导致单独使用标准人口统计特征的根本平衡(RMSE)改进高达21%。我们还展示了使用深度学习与K-Means集群相结合的嵌入管道的嵌入管道,产生相干瓷砖段,允许解释潜在的嵌入功能。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
在过去几年中,自动驾驶一直是最受欢迎,最具挑战性的主题之一。在实现完全自治的道路上,研究人员使用了各种传感器,例如LIDAR,相机,惯性测量单元(IMU)和GPS,并开发了用于自动驾驶应用程序的智能算法,例如对象检测,对象段,障碍,避免障碍物,避免障碍物和障碍物,以及路径计划。近年来,高清(HD)地图引起了很多关注。由于本地化中高清图的精度和信息水平很高,因此它立即成为自动驾驶的关键组成部分之一。从Baidu Apollo,Nvidia和TomTom等大型组织到个别研究人员,研究人员创建了用于自主驾驶的不同场景和用途的高清地图。有必要查看高清图生成的最新方法。本文回顾了最新的高清图生成技术,这些技术利用了2D和3D地图生成。这篇评论介绍了高清图的概念及其在自主驾驶中的有用性,并详细概述了高清地图生成技术。我们还将讨论当前高清图生成技术的局限性,以激发未来的研究。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
This paper reviews the recent progress of remote sensing image scene classification, proposes a large-scale benchmark dataset, and evaluates a number of state-of-the-art methods using the proposed dataset.
translated by 谷歌翻译
多标签遥感图像分类(MLRSIC)已获得越来越多的研究兴趣。将多个标签的辅助关系作为其他信息有助于提高此任务的性能。当前方法着重于使用它来限制卷积神经网络(CNN)的最终功能输出。一方面,这些方法不会充分利用标签相关来形成特征表示。另一方面,它们增加了系统的标签噪声灵敏度,导致稳健性差。在本文中,提出了一种称为语义交织的全球通道注意(Signa)的新颖方法。首先,根据数据集的统计信息获得标签共发生图。标签共发生图用作图形神经网络(GNN)的输入,以生成最佳特征表示。然后,语义特征和视觉特征交错,以指导图像从原始特征空间到具有嵌入式标签关系的语义特征空间的特征表达。 Signa在新的语义特征空间中触发了特征地图通道的全球关注,以提取更重要的视觉特征。提出了基于多头签名的功能自适应加权网络,以插件的方式对任何CNN作用。对于遥感图像,可以通过将CNN插入浅层层来实现更好的分类性能。我们对三个数据集进行了广泛的实验比较:UCM数据集,AID数据集和DFC15数据集。实验结果表明,与最新方法(SOTA)方法相比,所提出的Signa具有出色的分类性能。值得一提的是,本文的代码将向社区开放,以进行可重复性研究。我们的代码可在https://github.com/kyle-one/signa上找到。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
自我监督的表示学习技术利用大型数据集,而没有语义注释来学习有意义的,通用的功能,这些功能可以方便地转移以解决各种下游监督任务。在本文中,我们提出了一种自我监督的方法,用于学习从未标记的GPS轨迹的地理位置来求解下游地理空间视觉任务任务。由地球表面的栅格表示产生的瓷砖被建模为图像的图或像素上的节点。将GPS轨迹建模为允许在这些节点上的马尔可夫路径。提出了一种可扩展和分布的算法,以计算图像样的张量,称为可及性摘要,该图像摘要是瓷砖与其邻居之间的空间连通性模式所隐含的。培训了一个卷积,承包自动编码器,以学习每个瓷砖的可及性摘要的压缩表示形式,称为可及性嵌入。可及性嵌入用作任务无关的,地理位置的特征表示。使用可及性嵌入作为五个不同下游地理空间任务的像素表示,作为监督语义分割问题,我们定量证明,可及性嵌入性具有语义上有意义的表示,并在绩效中获得4-23%的增长,同时使用高达67%的轨迹数据,较小的轨迹数据,较小的轨迹数据,较小的轨迹数据,与基线模型相比,使用Precision-Recall曲线(AUPRC)度量的面积测量,这些模型使用了不考虑瓷砖之间空间连接性的像素表示。可及性嵌入将顺序的时空迁移率数据转化为具有语义上有意义的图像张量表示,这些表示器可以与其他图像来源结合使用,并旨在促进地理空间计算机视觉中的多模式学习。
translated by 谷歌翻译
产量估计是葡萄园管理中的强大工具,因为它允许种植者微调实践以优化产量和质量。但是,目前使用手动抽样进行估计,这是耗时和不精确的。这项研究表明,近端成像的应用与深度学习相结合,以进行葡萄园中的产量估计。使用车辆安装的传感套件进行连续数据收集,并使用商业收益率监控器在收获时结合了地面真实收益数据的收集,可以生成一个23,581个收益点和107,933张图像的大数据集。此外,这项研究是在机械管理的商业葡萄园中进行的,代表了一个充满挑战的图像分析环境,但在加利福尼亚中央山谷中的一组常见条件。测试了三个模型架构:对象检测,CNN回归和变压器模型。对象检测模型在手工标记的图像上进行了训练以定位葡萄束,并将束数量或像素区域求和以与葡萄产量相关。相反,回归模型端到端训练,以预测图像数据中的葡萄产量,而无需手动标记。结果表明,在代表性的保留数据集上,具有相当的绝对百分比误差为18%和18.5%的变压器和具有像素区域处理的对象检测模型。使用显着映射来证明CNN模型的注意力位于葡萄束的预测位置附近以及葡萄树冠的顶部。总体而言,该研究表明,近端成像和深度学习对于大规模预测葡萄群的适用性。此外,端到端建模方法能够与对象检测方法相当地执行,同时消除了手工标记的需求。
translated by 谷歌翻译
本文研究了图形神经网络(GNNS)应用程序,以进行自我监督的网络入侵和异常检测。 GNN是一种基于图的数据的深度学习方法,它将图形结构纳入学习以概括图表和输出嵌入。由于网络流量自然基于图,因此GNN非常适合分析和学习网络行为。基于GNN的网络入侵检测系统(NIDSS)的最新实现很大程度上依赖于标记的网络流量,这不仅可以限制输入流量的数量和结构,还可以限制NIDSS的潜力来适应看不见的攻击。为了克服这些限制,我们提出了异常-E,这是GNN的入侵和异常检测方法,该方法在自我监督过程中利用边缘特征和图形拓扑结构。据我们所知,这种方法是第一种成功且实用的方法来进行网络入侵检测,该方法利用网络流动在自我监督,边缘利用GNN中。两个现代基准NIDS数据集的实验结果不仅清楚地显示了使用Anomal-E嵌入而不是原始功能的改进,而且还显示了对野生网络流量检测的潜在异常-E具有的潜在异常功能。
translated by 谷歌翻译
本文介绍了基于图形神经网络(GNN)的新的网络入侵检测系统(NID)。 GNN是深度神经网络的一个相对较新的子领域,可以利用基于图形数据的固有结构。 NIDS的培训和评估数据通常表示为流记录,其可以自然地以图形格式表示。这建立了探索网络入侵检测GNN的潜在和动力,这是本文的重点。基于机器的基于机器的NIDS的目前的研究只考虑网络流动,而不是考虑其互连的模式。这是检测复杂的物联网网络攻击的关键限制,例如IOT设备推出的DDOS和分布式端口扫描攻击。在本文中,我们提出了一种克服了这种限制的GNN方法,并允许捕获图形的边缘特征以及IOT网络中网络异常检测的拓扑信息。据我们所知,我们的方法是第一次成功,实用,广泛地评估应用图形神经网络对使用流基于流的数据的网络入侵检测问题的方法。我们在最近的四个NIDS基准数据集上进行了广泛的实验评估,表明我们的方法在关键分类指标方面占据了最先进的,这证明了网络入侵检测中GNN的潜力,并提供了进一步研究的动机。
translated by 谷歌翻译
街道级别图像对原位数据收集进行扩大占据了重要潜力。通过组合使用便宜的高质量相机与最近的深度学习计算解决方案的进步来实现这一点,以推导出相关专题信息。我们介绍了一个框架,用于使用计算机视觉从街道层图像中收集和提取作物类型和候选信息。在2018年生长季节期间,高清图片被捕获在荷兰弗莱洛兰省的侧视动作相机。每个月从3月到10月,调查了一个固定的200公里路线,每秒收集一张照片,结果总计40万个地理标记的图片。在220个特定的包裹物位置,记录了现场作物的观察结果,以获得17种作物。此外,时间跨度包括特定的出苗前包裹阶段,例如用于春季和夏季作物的不同栽培的裸土,以及收获后栽培实践,例如,绿色皱眉和捕捉庄稼。基于与卷积神经网络(MobileNet)的转移学习,使用具有众所周知的图像识别模型的Tensorflow进行分类。开发了一种超核解方法,以获得160型号的表现最佳模型。这种最佳模型应用于独立推理的鉴别作物类型,宏观F1分数为88.1%的宏观效果,在包裹水平的86.9%。讨论了这种方法的潜力和警告以及实施和改进的实际考虑因素。所提出的框架速度升高了高质量的原位数据收集,并通过使用计算机视觉自动分类建议大规模数据收集的途径。
translated by 谷歌翻译
西尼罗河病毒(WNV)的发生代表了最常见的蚊子传播的人畜共患病毒感染之一。它的循环通常与适合载体增殖和病毒复制的气候和环境条件有关。最重要的是,已经开发了几种统计模型来塑造和预测WNV循环:尤其是,最近的地球观察数据(EO)数据的巨大可用性,再加上人工智能领域的持续发展,提供了宝贵的机会。在本文中,我们试图通过用卫星图像为深度神经网络(DNN)喂食WNV循环,这些图像已被广泛证明可以具有环境和气候特征。值得注意的是,尽管以前的方法可以独立分析每个地理位置,但我们提出了一种空间感知方法,该方法也考虑了近距离位点的特征。具体而言,我们建立在图形神经网络(GNN)的基础上,以从相邻位置进行聚集特征,并进一步扩展这些模块以考虑多个关系,例如两个地点之间的温度和土壤水分差异以及地理距离。此外,我们将与时间相关的信息直接注入模型中,以考虑病毒传播的季节性。我们设计了一个实验环境,将卫星图像(来自Landsat和Sentinel任务)结合在一起,以及意大利WNV循环的地面真相观察。我们表明,与适当的预训练阶段配对时,我们提出的多种jaCencenciencencencence Graph注意网络(MAGAT)始终导致更高的性能。最后,我们在消融研究中评估MAGAT每个组成部分的重要性。
translated by 谷歌翻译
近年来,新发现的矿物沉积物数量和不同矿物质需求的增加有LED探索地质学家,寻找在矿物勘探的每个阶段加工不同数据类型的更有效和创新的方法。作为主要步骤,诸如岩性单元,改变类型,结构和指示剂矿物的各种特征被映射以辅助靶向矿床的决策。不同类型的遥感数据集如卫星和空气传播数据,使得可以克服与映射地质特征相关的常见问题。从不同平台获得的遥感数据量的快速增加鼓励科学家培养先进,创新和强大的数据处理方法。机器学习方法可以帮助处理广泛的遥感数据集,并确定诸如反射连续体和感兴趣的特征的组件之间的关系。这些方法在处理频谱和地面真理测量中是稳健的,用于噪声和不确定性。近年来,通过补充与遥感数据集的地质调查进行了许多研究,现在在地球科学研究中突出。本文对一些流行的和最近建立的机器学习方法的实施和适应提供了全面的审查,用于处理不同类型的遥感数据,并调查其用于检测各种矿床类型的应用。我们展示了组合遥感数据和机器学习方法的高能力,以映射对于提供潜在地图至关重要的不同地质特征。此外,我们发现高级方法的范围来处理新一代遥感数据,以创建改进的矿物前景图。
translated by 谷歌翻译
Network embedding (NE) approaches have emerged as a predominant technique to represent complex networks and have benefited numerous tasks. However, most NE approaches rely on a homophily assumption to learn embeddings with the guidance of supervisory signals, leaving the unsupervised heterophilous scenario relatively unexplored. This problem becomes especially relevant in fields where a scarcity of labels exists. Here, we formulate the unsupervised NE task as an r-ego network discrimination problem and develop the SELENE framework for learning on networks with homophily and heterophily. Specifically, we design a dual-channel feature embedding pipeline to discriminate r-ego networks using node attributes and structural information separately. We employ heterophily adapted self-supervised learning objective functions to optimise the framework to learn intrinsic node embeddings. We show that SELENE's components improve the quality of node embeddings, facilitating the discrimination of connected heterophilous nodes. Comprehensive empirical evaluations on both synthetic and real-world datasets with varying homophily ratios validate the effectiveness of SELENE in homophilous and heterophilous settings showing an up to 12.52% clustering accuracy gain.
translated by 谷歌翻译