时间序列加工是风力涡轮机健康监测的重要方面。尽管在这一领域进展,但新方法仍有空间来提高建模质量。在本文中,我们提出了两种新方法来分析风力涡轮机健康。这两种方法都基于抽象概念,使用模糊集实现,概述并汇总了底层的原始数据。通过观察概念的变化,我们推断涡轮机健康的变化。分析分别进行不同的外部条件(风速和温度)。我们提取代表相对低,中等和高功率生产的概念。第一种方法旨在评估相对较高和低功率生产的降低或增加。使用回归式模型执行此任务。第二种方法评估提取的概念的整体漂移。大漂移表明电力生产过程及时经历波动。使用语言标签标记概念,从而用改善的解释性功能配备了我们的模型。我们应用了提出的方法来处理描述四种风力涡轮机的公开数据。仿真结果表明,所有风力涡轮机的老化过程在所有风力涡轮机中都不均匀。
translated by 谷歌翻译
Different machine learning (ML) models are trained on SCADA and meteorological data collected at an onshore wind farm and then assessed in terms of fidelity and accuracy for predictions of wind speed, turbulence intensity, and power capture at the turbine and wind farm levels for different wind and atmospheric conditions. ML methods for data quality control and pre-processing are applied to the data set under investigation and found to outperform standard statistical methods. A hybrid model, comprised of a linear interpolation model, Gaussian process, deep neural network (DNN), and support vector machine, paired with a DNN filter, is found to achieve high accuracy for modeling wind turbine power capture. Modifications of the incoming freestream wind speed and turbulence intensity, $TI$, due to the evolution of the wind field over the wind farm and effects associated with operating turbines are also captured using DNN models. Thus, turbine-level modeling is achieved using models for predicting power capture while farm-level modeling is achieved by combining models predicting wind speed and $TI$ at each turbine location from freestream conditions with models predicting power capture. Combining these models provides results consistent with expected power capture performance and holds promise for future endeavors in wind farm modeling and diagnostics. Though training ML models is computationally expensive, using the trained models to simulate the entire wind farm takes only a few seconds on a typical modern laptop computer, and the total computational cost is still lower than other available mid-fidelity simulation approaches.
translated by 谷歌翻译
本文介绍了一种基于Prolog的推理模块,以产生鉴于由黑盒分类器计算的预测的反事实解释。建议的符号推理模块还可以解决使用地面真实标签而不是预测的if查询。总的来说,我们的方法包括四个明确定义的阶段,可以应用于任何结构化模式分类问题。首先,我们通过抵消缺失值并归一化数值特征来预先处理给定的数据集。其次,我们使用模糊群集将数值特征转换为象征性的,使得提取的模糊簇映射到有序的预定义符号集。第三,我们使用标称值,预定义符号,决策类和置信度值将实例编码为Prolog规则。第四,我们使用模糊粗糙集理论来计算每个Prolog规则的整体置信度,以处理通过将数值转变为符号而引起的不确定性。此步骤对新的相似性功能进行了额外的理论贡献,以比较涉及置信度值的先前定义的Prolog规则。最后,我们在人类之间实现了聊天栏和基于Prolog的推理模块,以解决自然语言查询并生成反事实解释。在使用合成数据集的数值模拟期间,我们在使用不同的模糊运算符和相似性功能时研究我们的系统的性能。在结束时,我们说明了我们的推理模块如何使用不同的用例工作。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
Both clustering and outlier detection play an important role for meteorological measurements. We present the AWT algorithm, a clustering algorithm for time series data that also performs implicit outlier detection during the clustering. AWT integrates ideas of several well-known K-Means clustering algorithms. It chooses the number of clusters automatically based on a user-defined threshold parameter, and it can be used for heterogeneous meteorological input data as well as for data sets that exceed the available memory size. We apply AWT to crowd sourced 2-m temperature data with an hourly resolution from the city of Vienna to detect outliers and to investigate if the final clusters show general similarities and similarities with urban land-use characteristics. It is shown that both the outlier detection and the implicit mapping to land-use characteristic is possible with AWT which opens new possible fields of application, specifically in the rapidly evolving field of urban climate and urban weather.
translated by 谷歌翻译
在时间序列预测的各种软计算方法中,模糊认知地图(FCM)已经显示出显着的结果作为模拟和分析复杂系统动态的工具。 FCM具有与经常性神经网络的相似之处,可以被分类为神经模糊方法。换句话说,FCMS是模糊逻辑,神经网络和专家系统方面的混合,它作为模拟和研究复杂系统的动态行为的强大工具。最有趣的特征是知识解释性,动态特征和学习能力。本调查纸的目标主要是在文献中提出的最相关和最近的基于FCCM的时间序列预测模型概述。此外,本文认为介绍FCM模型和学习方法的基础。此外,该调查提供了一些旨在提高FCM的能力的一些想法,以便在处理非稳定性数据和可扩展性问题等现实实验中涵盖一些挑战。此外,具有快速学习算法的FCMS是该领域的主要问题之一。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
海洋充满了称为浮游植物的微型微藻,它们共同负责与陆地上所有植物的光合作用。我们预测他们对变暖海洋的反应的能力取决于了解浮游植物种群的动态如何受环境条件变化的影响。研究浮游植物动力学的一种强大技术是流式细胞仪,它测量每秒成千上万个单个细胞的光学特性。如今,海洋学家能够实时收集流动的细胞仪数据,从而为他们提供了精细的分辨率,可以分配数千公里的浮游植物分布。当前的挑战之一是了解这些大小规模的变化如何与环境条件(例如养分可用性,温度,光线和洋流)有关。在本文中,我们提出了多元回归模型的新型稀疏混合物,以估计随着时间的变化浮游植物的亚群,同时识别预测这些亚种群观察到的变化的特定环境协变量。我们使用合成数据和在2017年春季在东北太平洋进行的海洋学巡游中收集的合成数据和实际观察结果证明了该方法的有用性和解释性。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
本文介绍了一个专家决策支持系统,用于识别时间不变,气动声源类型。该系统包括两个步骤:首先,基于光谱和空间信息计算声学特性。其次,基于这些属性执行群集。群集旨在帮助和指导专家以便快速识别不同的源类型,了解源的差异如何。这支持专家确定类似或不典型的行为。提出了一种用于捕获来源特征的各种特征。这些特征代表了机器和专家可以解释的气动声特性。该特征独立于绝对Mach数,其使得所提出的方法能够以不同的流量配置测量的集群数据。从两个缩放的机身半模型测量评估该方法的解码波束形成数据。对于该示例性数据,所提出的支持系统方法导致大多数对应于作者标识的源类型的集群。群集还为每个群集提供平均特征值和群集层次结构,以及每个集群成员是聚类信心。此附加信息使结果透明并允许专家了解聚类选择。
translated by 谷歌翻译
驾驶方式总结了反映车辆运动的不同驾驶行为。这些行为可能表明倾向于执行更风险的操作,消耗更多的燃料或能源,打破交通规则或仔细驾驶。因此,本文使用Interval-2类型模糊推理系统提出了驾驶风格的识别,并具有多个专家决策,以将驾驶员分类为平静,中等和激进。该系统接收到输入具有车辆运动的纵向和侧向运动参数。处理噪声数据时,类型2模糊集比Type-1模糊集更强大,因为它们的成员资格功能也是模糊集。此外,在构建模糊的规则基础时,多种专家方法可以减少偏见和不精确,该模糊规则基金会存储模糊系统的知识。使用描述性统计分析评估了所提出的方法,并将其与聚类算法和1型模糊推理系统进行了比较。结果表明,与其他算法相比,与2型模糊推理系统分类的驾驶方式相关的较低运动学概况的趋势与其他算法相比,这与专家意见的汇总采用了更保守的方法。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
FCM和PCM聚类方法都被广泛应用于模式识别和数据聚类。尽管如此,FCM对噪声和PCM偶尔会产生一致的簇。 PFCM是通过组合FCM和PCM的PCM模型的扩展,但这种方法仍然遭受PCM和FCM的弱点。在目前的纸张中,校正了PFCM算法的弱点,并提出了增强的可能性模糊C-MATIOM(EPFCM)聚类算法。 EPFCM仍然对噪音敏感。因此,我们通过利用模糊成员资格和两个fuzzifers $({\ theta} _1,{\ theta} _2 )$的可能性典型。我们的计算结果表明,与文献中的几种最先进的技术相比,拟议方法的优势。最后,实施了所提出的方法,用于分析微阵列基因表达数据。
translated by 谷歌翻译
REED继电器是功能测试的基本组成部分,与电子产品的成功质量检查密切相关。为了为REED继电器提供准确的剩余使用寿命(RUL)估计,根据以下三个考虑,提出了具有降解模式聚类的混合深度学习网络。首先,对于REED继电器,观察到多种降解行为,因此提供了基于动态的$ K $ -MEANS聚类,以区分彼此的退化模式。其次,尽管适当的功能选择具有重要意义,但很少有研究可以指导选择。提出的方法建议进行操作规则,以实施轻松实施。第三,提出了用于剩余使用寿命估计的神经网络(RULNET),以解决卷积神经网络(CNN)在捕获顺序数据的时间信息中的弱点,该信息在卷积操作的高级特征表示后结合了时间相关能力。通过这种方式,lulnet的三种变体由健康指标,具有自组织地图的功能或具有曲线拟合的功能构建。最终,将提出的混合模型与典型的基线模型(包括CNN和长期记忆网络(LSTM))进行了比较,该模型通过具有两个不同不同降级方式的实用REED继电器数据集进行了比较。两种降解案例的结果表明,所提出的方法在索引均方根误差方面优于CNN和LSTM。
translated by 谷歌翻译
在这项工作中,对于不确定和结构化数据的聚类计划被认为依赖于Wasserstein Barycenters的概念,并伴随着基于Wasserstein空间的内在几何形状的适当聚类指数,在该几何形状上执行了群集任务。这种类型的聚类方法在许多领域都高度赞赏,在观察/实验误差很大(例如,天文学,生物学,遥感等)或数据性质更为复杂,并且传统学习算法不适用或有效治疗,因此高度赞赏。它们(例如网络数据,间隔数据,高频记录,矩阵数据等)。从这个角度来看,每个观察结果都是通过适当的概率度量来确定的,并且提出的聚类方案依赖于歧视标准,这些标准通过最佳运输理论从概率测量方面利用了概率测量空间的几何结构。通过模拟研究和两个现实世界应用中的实施来说明拟议方法和地球标准性能的优势和能力:(a)根据其观察到的政府债券收益率曲线和(b)对欧元区国家的群集进行分类,并(b)对到某些土地的卫星图像使用类别,这是遥感中的标准任务。
translated by 谷歌翻译
在过去的几十年中,风产能的增长表明,风能可以促进世界许多地区的能源过渡。对于模型的高度可变和复杂,对风能的时空变化和相关的不确定性的定量与能源计划者高度相关。机器学习已成为执行风速和功率预测的流行工具。但是,现有方法有几个局限性。其中包括(i)在风速数据中不足以考虑时空相关性,(ii)缺乏量化风速预测不确定性及其对风能估算的不确定性的现有方法,以及(iii)焦点在少于小时的频率上。为了克服这些局限性,我们引入了一个框架,以从不规则分布的风速测量值中的常规网格上重建时空场。将数据分解为时间引用的基础函数及其相应的空间分布系数后,后者是使用极端学习机对空间建模的。然后,对模型和预测不确定性的估计及其在风速转化为风能后的传播的估计值,然后将提供对数据分布模式的任何假设。该方法适用于研究瑞士100米轮毂高度的250 x 250平方米的小时风能潜力,为该国提供了其类型的第一个数据集。潜在的风力发电与风力涡轮机安装的可用区域相结合,以估算瑞士风力发电的技术潜力。此处介绍的风力估算代表了计划人员的重要意见,以支持风力发电增加的未来能源系统的设计。
translated by 谷歌翻译
概念漂移过程挖掘(PM)是一种挑战,因为古典方法假设进程处于稳态,即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述,从而审查了过程采矿中的概念漂移,并提出了用于漂移检测和在线流程挖掘的现有技术的分类,以实现不断发展的环境。现有的作品描绘了(i)PM仍然主要关注离线分析,并且(ii)由于缺乏公共评估协议,数据集和指标,过程中的概念漂移技术的评估是麻烦的。
translated by 谷歌翻译
本文介绍了一种用于检测变更点的算法,并鉴定了瞬态多元时间序列数据(MTSD)中相应的子序列。由于许多工业领域的可用性增加,对此类数据的分析变得越来越重要。用于基于训练条件的维护(CBM)模型的标签,排序或过滤高度瞬态测量数据很麻烦且容易出错。对于某些应用程序,可以通过简单阈值或基于平均值和变化的变化找到更改点来过滤测量值。但是,例如,组件组中组件的强大诊断,该组件在多个传感器值之间具有复杂的非线性相关性,简单的方法是不可行的。可以将CBM模型出现的有意义且相干的测量数据。因此,我们介绍了一种使用基于复发的神经网络(RNN)自动编码器(AE)的算法,该算法对传入数据进行了迭代训练。评分函数使用重建误差和潜在空间信息。保存了确定的子序列的模型,并用于识别重复子序列以及快速离线聚类。为了进行评估,我们提出了一种基于曲率的新相似性度量,以实现更直观的时间序列子序列聚类指标。与其他七种最先进的算法和八个数据集进行了比较,显示了我们算法对在线群集MTSD和与机电系统结合的群集MTSD的功能和性能的提高。
translated by 谷歌翻译
模糊认知地图(FCMS)被出现为可解释的签名加权数字化方法,其由代表概念之间的依赖性的节点(概念)和权重。虽然FCMS在各种时间序列预测应用中取得了相当大的成果,但设计了具有较节约的训练方法的FCM模型仍然是一个开放的挑战。因此,本文介绍了一种新颖的单变量时间序列预测技术,该技术由标记为R-HFCM的一组随机高阶FCM模型组成。提出的R-HFCM模型的新颖性与将FCM和回声状态网络(ESN)的概念合并为高效且特定的储层计算(RC)模型系列,其中应用于训练模型的最小二乘算法。从另一个角度来看,R-HFCM的结构包括输入层,储存层和输出层,其中仅输出层是可训练的,同时在训练过程中随机选择每个子储存组件的重量并保持恒定。如案例研究,该模型考虑了与巴西太阳能站以及马来西亚数据集的公共数据的太阳能预测,包括马来西亚市柔佛市电源公司的每小时电负荷和温度数据。实验还包括地图尺寸,激活功能,偏置的存在和储存器的尺寸的效果,储存器的尺寸为R-HFCM方法的准确性。所获得的结果证实了所提出的R-HFCM模型与其他方法相比表现。本研究提供了证据表明,FCM可以是在时间序列建模中实施动态储存的新方法。
translated by 谷歌翻译