VQ(供应商资格)和IOQ(安装和操作资格)审核在仓库中实施,以确保在履行网络中翻转所有设备都符合质量标准。如果在短时间内进行许多检查,则可能会跳过审核检查。此外,探索性数据分析揭示了对相同资产进行类似检查的几个实例,从而重复了这项工作。在这项工作中,通过识别相似性和重复项,将自然语言处理和机器学习应用于仓库网络的大型清单数据集,并预测具有较高传递率的非批评性数据集。该研究建议ML分类器识别具有IOQ和VQ的高传递概率的检查,并将优先级分配给检查,以便在无法执行所有检查的时间时优先考虑。这项研究建议使用基于NLP的BLAZINGTEXT分类器以高速率进行清单,这可以降低检查的10%-37%,并大大降低成本。应用的算法超过了随机森林和神经网络分类器,并在90%的曲线下达到了一个区域。由于数据不平衡,使用F1分数对模型的准确性产生了积极影响,从8%提高到75%。此外,提出的重复检测过程确定要修剪的17%可能的冗余支票。
translated by 谷歌翻译
我们在人类演变的历史上是一个独特的时间表,在那里我们可能能够发现我们的太阳系外的星星周围的地球行星,条件可以支持生活,甚至在那些行星上找到生命的证据。通过NASA,ESA和其他主要空间机构近年来推出了几个卫星,可以使用充足的数据集,可以使用,可用于培训机器学习模型,可以自动化Exoplanet检测的艰巨任务,其识别和居住地确定。自动化这些任务可以节省相当大的时间并导致人工错误最小化由于手动干预。为了实现这一目标,我们首先分析开孔望远镜捕获的恒星的光强度曲线,以检测表现出可能的行星系统存在特性的潜在曲线。对于该检测,以及培训常规模型,我们提出了一种堆叠的GBDT模型,可以同时在光信号的多个表示上培训。随后,我们通过利用几种最先进的机器学习和集合方法来解决EXOPLANET识别和居住地确定的自动化。外产的鉴定旨在将假阳性实例与外产的实际情况区分开,而居住地评估基于其可居住的特征,将外产行动的情况群体分组到不同的集群中。此外,我们提出了一种称为充足的热量充足(ATA)得分的新度量,以建立可居住和不可居住的情况之间的潜在线性关系。实验结果表明,所提出的堆叠GBDT模型优于检测过渡外出的常规模型。此外,在适当的分类中纳入ATA分数增强了模型的性能。
translated by 谷歌翻译
入院后护理管理协调患者的转诊,以改善从医院出院,尤其是老年人和长期患者。在护理管理环境中,健康转诊是由托管护理组织(MCO)的专业部门处理的,该部门与许多其他实体进行互动,包括住院医院,保险公司和入院后护理提供者。在本文中,提出了一个机器学习引导的离散事件仿真框架,以改善健康推荐处理。开发了基于随机福雷林的预测模型来预测LOS和推荐类型。构建了两个仿真模型,以代表转介处理系统和智能系统的AS配置,分别合并了预测功能。通过将推荐处理系统的预测模块合并以计划和优先级推荐,在减少平均转介创建延迟时间方面增强了整体性能。这项研究将强调放电后护理管理在改善健康质量和降低相关成本方面的作用。此外,本文演示了如何使用集成系统工程方法来改进复杂的医疗系统的过程。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播,考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一,以窃取信用卡和密码等敏感数据。此外,关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享,导致人们的恐惧和混乱。因此,过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法,但这些方法有两个限制。机器学习模型需要手动功能工程,而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型,用于垃圾邮件检测,调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器,如随机森林和极其随机的树木,用于将文本分类为垃圾邮件或合法的树。此外,该模型采用了Boosting和Bagging等集合学习程序。结果,该模型达到了高精度,召回,F1分数和精度为98.38%。
translated by 谷歌翻译
本文使用Qiskit软件堆栈提出了金融支付行业中的量子支持矢量机(QSVM)算法的第一个端到端应用,用于金融支付行业中的分类问题。基于实际卡支付数据,进行了详尽的比较,以评估当前最新的量子机学习算法对经典方法带来的互补影响。使用量子支持矢量机的特征映射特征来探索一种搜索最佳功能的新方法。使用欺诈特定的关键绩效指标比较结果:基于人类专业知识(规则决策),经典的机器学习算法(随机森林,XGBoost)和基于量子的机器学习算法,从分析中提取了准确性,回忆和假阳性率。 。此外,通过使用结合经典和量子算法的合奏模型来更好地改善预防欺诈的决策,从而探索了混合经典量子方法。我们发现,正如预期的那样,结果高度依赖于用于选择它们的特征选择和算法。 QSVM对特征空间进行了互补的探索,从而在大幅度降低的数据集上拟合了量子硬件的当前状态,从而提高了混合量子古典方法的欺诈检测准确性。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
不平衡的数据(ID)是阻止机器学习(ML)模型以实现令人满意的结果的问题。 ID是一种情况,即属于一个类别的样本的数量超过另一个类别的情况,这使此类模型学习过程偏向多数类。近年来,为了解决这个问题,已经提出了几种解决方案,该解决方案选择合成为少数族裔类生成新数据,或者减少平衡数据的多数类的数量。因此,在本文中,我们研究了基于深神经网络(DNN)和卷积神经网络(CNN)的方法的有效性,并与各种众所周知的不平衡数据解决方案混合,这意味着过采样和降采样。为了评估我们的方法,我们使用了龙骨,乳腺癌和Z-Alizadeh Sani数据集。为了获得可靠的结果,我们通过随机洗牌的数据分布进行了100次实验。分类结果表明,混合的合成少数族裔过采样技术(SMOTE) - 正态化-CNN优于在24个不平衡数据集上达到99.08%精度的不同方法。因此,提出的混合模型可以应用于其他实际数据集上的不平衡算法分类问题。
translated by 谷歌翻译
预测连通航班中的乘客将失去他们的联系对于航空公司盈利能力至关重要。我们为不同阶段的连接飞行管理的不同阶段提出了新型机器学习的决策支持模型,即战略,战术,战术和后期行动。我们预测航空公司枢纽机场的错过航班连接,使用航班和乘客的历史数据,分析了对每个决策地平线的预测结果贡献的因素。我们的数据是高维,异质,不平衡和嘈杂的,并且不会通知客人抵达/离境运输时间。我们采用了分类类的概率编码,与高斯混合模型的数据平衡,以及提升。对于所有规划视野,我们的模型将ROC的AUC达到高于0.93。我们模型的Shap值说明表明计划/感知的连接时间对预测的最大贡献,其次是乘客年龄以及是否需要边界控制。
translated by 谷歌翻译
当今软件的复杂性日益增加,需要成千上万的开发人员的贡献。这种复杂的协作结构使开发人员更有可能引入易缺陷的更改,从而导致软件故障。确定何时引入这些缺陷的变化已被证明具有挑战性,并且使用传统的机器学习(ML)方法来做出这些决定似乎已经达到了平稳状态。在这项工作中,我们构建了由开发人员和源文件组成的贡献图,以捕获构建软件所需的更改的细微复杂性。通过利用这些贡献图,我们的研究表明了使用基于图的ML改善及时(JIT)缺陷预测的潜力。我们假设从贡献图中提取的功能可能是易缺陷变化的预测指标,而不是从软件特征中得出的固有特征。我们使用基于图的ML来证实我们的假设,以分类表示易缺陷变化的边缘。 JIT缺陷预测问题的新框架导致了更好的结果。我们在14个开源项目上测试了我们的方法,并表明我们的最佳模型可以预测代码更改是否会导致F1分数高达77.55 $ \%$的缺陷。这比JIT缺陷预测中最新的$ \%$的增加高达46.72美元。我们描述了局限性,开放挑战以及该方法如何用于操作JIT缺陷预测。
translated by 谷歌翻译
药物介导的电压门控钾通道(HERG)和电压门控钠通道(NAV1.5)可导致严重的心血管并发症。这种上升的担忧已经反映在药物开发竞技场中,因为许多经批准的药物的常常出现心脏毒性导致他们在某些情况下停止他们的使用,或者在某些情况下,他们从市场上撤回。在药物发现过程的开始时预测潜在的HERG和NAV1.5阻滞剂可以解决这个问题,因此可以降低开发安全药物的时间和昂贵的成本。一种快速且经济高效的方法是在杂草中使用硅预测方法,在药物开发的早期阶段杂草出潜在的Herg和Nav1.5阻滞剂。在这里,我们介绍了两种基于强大的基于2D描述符的基于描述符的QSAR预测模型,用于HERG和NAV1.5责任预测。机器学习模型训练,用于回归,预测药物的效力值,以及三种不同效力截止的多条分类(即1 {\ mu} m,10 {\ mu} m,和30 {\ mu}) M),其中托管 - Herg分类器是随机森林模型的管道,受到8380个独特的分子化合物的大型策级数据集。虽然Toxtree-Nav1.5分类器,凯列化SVM模型的管道,由来自Chembl和Pubchem公开的生物活动数据库的大型手动策划的1550个独特的化合物培训。拟议的HERG诱导者表现优于最先进的发布模型和其他现有工具的大多数指标。此外,我们正在介绍Q4 = 74.9%的第一个NAV1.5责任预测模型,Q2 = 86.7%的二进制分类= 71.2%在173个独特的化合物的外部测试组上进行评估。该项目中使用的策划数据集公开可向研究界提供。
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
一个躺在胸腔里的心脏的四个基本腔腔对一个人的生存至关重要,但讽刺地证明是最脆弱的。心血管疾病(CVD)也通常被称为心脏病,在过去几十年中,人类在人类死亡原因中稳步发展。考虑到这一点统计,很明显,患有CVDS的患者需要快速且正确的诊断,以便于早期治疗来减少死亡的机会。本文试图利用提供的数据,以培训分类模型,如逻辑回归,k最近邻居,支持向量机,决策树,高斯天真贝叶斯,随机森林和多层感知(人工神经网络),最终使用柔软投票合奏技术,以便尽可能多地诊断。
translated by 谷歌翻译
目前,数据赢得了用户生成的数据和数据处理系统之间的大鼠竞赛。机器学习的使用增加导致处理需求的进一步增加,而数据量不断增长。为了赢得比赛,需要将机器学习应用于通过网络的数据。数据的网络分类可以减少服务器上的负载,减少响应时间并提高可伸缩性。在本文中,我们使用现成的网络设备以混合方式介绍了IISY,以混合方式实施机器学习分类模型。 IISY针对网络内分类的三个主要挑战:(i)将分类模型映射到网络设备(ii)提取所需功能以及(iii)解决资源和功能约束。 IISY支持一系列传统和集合机器学习模型,独立于开关管道中的阶段数量扩展。此外,我们证明了IISY用于混合分类的使用,其中在一个开关上实现了一个小模型,在后端的大型模型上实现了一个小模型,从而实现了接近最佳的分类结果,同时大大降低了服务器上的延迟和负载。
translated by 谷歌翻译
功能转换旨在通过数学转换现有功能来提取良好的表示(功能)空间。应对维度的诅咒,增强模型概括,克服数据稀疏性并扩大经典模型的可用性至关重要。当前的研究重点是基于领域的知识特征工程或学习潜在表示;然而,这些方法并非完全自动化,不能产生可追溯和最佳的表示空间。在重建机器学习任务的功能空间时,可以同时解决这些限制吗?在这项扩展研究中,我们提出了一个用于特征转化的自优化框架。为了取得更好的性能,我们通过(1)获得高级状态表示来改善初步工作,以使加强代理能够更好地理解当前功能集; (2)解决Q值高估的Q值高估,以学习无偏见和有效的政策。最后,为了使实验比初步工作更具说服力,我们结论是通过五个数据集添加异常检测任务,评估各种状态表示方法,并比较不同的培训策略。广泛的实验和案例研究表明,我们的工作更有效和更高。
translated by 谷歌翻译
机器学习,已经在越来越多的系统和应用程序的核心,被设置为更普遍存在的可穿戴设备和物联网的快速崛起。在大多数机器学习应用中,主要焦点是实现的结果的质量(例如,预测准确性),因此正在收集大量数据,需要大量的计算资源来构建模型。但是,在许多情况下,建立大型集中式数据存储库是不可行或不切实际的。例如,在个人健康中,隐私问题可能会抑制详细个人数据的共享。在这种情况下,理想情况下,机器学习应该在可穿戴设备本身上执行,这提高了诸如Smartwatches的电池容量的主要计算限制。因此,本文调查了节俭学习,旨在使用最少量资源来构建最准确的可能模型。通过节俭镜头检查广泛的学习算法,在各种数据集上分析了它们的准确性/运行时性能。此后,最有前途的算法通过在SmartWatch中实现它们,并让他们在手表本身上学习活动识别模型来评估现实世界的情况。
translated by 谷歌翻译