研究人员高度利用了原位同步加速器高能X射线粉末衍射(XRD)技术,可以分析功能设备(例如电池材料)或复杂样品环境中材料的晶体结构反应堆)。材料的原子结构可以通过其衍射模式以及详细的分析(例如Rietveld的细化)来识别,该分析表明测量的结构如何偏离理想结构(例如内部应力或缺陷)。对于原位实验,通常在不同条件下(例如绝热条件)在同一样本上收集一系列XRD图像,产生不同的物质状态,或者简单地作为时间的时间连续收集,以跟踪样品的变化超过化学或物理过程。原位实验通常与区域探测器一起进行,收集由理想粉末的衍射环组成的2D图像。根据材料的形式,人们可能会观察到除现实样本及其环境的典型Debye Scherrer环以外的其他特征,例如纹理或优选方向以及2D XRD图像中的单晶衍射点。在这项工作中,我们介绍了对机器学习方法的研究,以快速可靠地识别XRD图像中的单晶衍射点。在XRD图像整合过程中排除伪影的排除允许精确分析感兴趣的粉末衍射环。我们观察到,当用高度多样的数据集对较小的子集进行训练时,梯度提升方法可以始终如一地产生高精度的结果。与常规方法相比,该方法大大减少了识别和分离单晶斑所花费的时间。
translated by 谷歌翻译
成像,散射和光谱是理解和发现新功能材料的基础。自动化和实验技术的当代创新导致这些测量更快,分辨率更高,从而产生了大量的分析数据。这些创新在用户设施和同步射击光源时特别明显。机器学习(ML)方法经常开发用于实时地处理和解释大型数据集。然而,仍然存在概念障碍,进入设施一般用户社区,通常缺乏ML的专业知识,以及部署ML模型的技术障碍。在此,我们展示了各种原型ML模型,用于在国家同步光源II(NSLS-II)的多个波束线上在飞行分析。我们谨慎地描述这些示例,专注于将模型集成到现有的实验工作流程中,使得读者可以容易地将它们自己的ML技术与具有普通基础设施的NSLS-II或设施的实验中的实验。此处介绍的框架展示了几乎没有努力,多样化的ML型号通过集成到实验编程和数据管理的现有Blueske套件中与反馈回路一起运行。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
现在,整个研究社区都可以广泛使用机器学习(ML),它促进了这些新兴的数学技术在广泛学科中的新型和引人注目的应用的扩散。在本文中,我们将重点介绍一个特定的案例研究:古人类学领域,该领域旨在根据生物学和文化证据理解人类的演变。正如我们将表明的那样,ML算法的易用性以及在人类学研究界的适当使用方面缺乏专业知识,导致了整个文献中出现的基本错误应用。结果不可靠的结果不仅破坏了将ML合法纳入人类学研究的努力,而且还会对我们的人类进化和行为过去产生潜在的理解。本文的目的是简要介绍古人类学中ML的某些方式;我们还为那些与该领域完全熟悉的人提供了一些基本ML算法的调查,而该领域仍在积极发展。我们讨论了一系列的错误,错误和违反正确的ML方法方案的行为,这些方法经常在人类学文献的积累体内出现令人不安。这些错误包括使用过时的算法和实践;不适当的火车/测试拆分,样本组成和文本解释;以及由于缺乏数据/代码共享以及随后对独立复制的限制而缺乏透明度。我们断言,扩大样本,共享数据和代码,重新评估同行评审的方法,以及最重要的是,开发包括ML专家在内的跨学科团队对于将ML在人类学中纳入ML的未来研究的进步都是必要的。
translated by 谷歌翻译
机器学习(ML)是指根据大量数据预测有意义的输出或对复杂系统进行分类的计算机算法。 ML应用于各个领域,包括自然科学,工程,太空探索甚至游戏开发。本文的重点是在化学和生物海洋学领域使用机器学习。在预测全球固定氮水平,部分二氧化碳压力和其他化学特性时,ML的应用是一种有前途的工具。机器学习还用于生物海洋学领域,可从各种图像(即显微镜,流车和视频记录器),光谱仪和其他信号处理技术中检测浮游形式。此外,ML使用其声学成功地对哺乳动物进行了分类,在特定的环境中检测到濒临灭绝的哺乳动物和鱼类。最重要的是,使用环境数据,ML被证明是预测缺氧条件和有害藻华事件的有效方法,这是对环境监测的重要测量。此外,机器学习被用来为各种物种构建许多对其他研究人员有用的数据库,而创建新算法将帮助海洋研究界更好地理解海洋的化学和生物学。
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
我们提出了TABPFN,这是一种与小型表格数据集上的最新技术竞争性的自动化方法,而更快的速度超过1,000美元。我们的方法非常简单:它完全符合单个神经网络的权重,而单个正向通行证直接产生了对新数据集的预测。我们的AutoML方法是使用基于变压器的先验数据拟合网络(PFN)体系结构进行元学习的,并近似贝叶斯推断,其先验是基于简单性和因果结构的假设。先验包含庞大的结构性因果模型和贝叶斯神经网络,其偏见是小体系结构,因此复杂性较低。此外,我们扩展了PFN方法以在实际数据上校准Prior的超参数。通过这样做,我们将抽象先前的假设与对真实数据的启发式校准分开。之后,修复了校准的超参数,并在按钮按钮时可以将TABPFN应用于任何新的表格数据集。最后,在OpenML-CC18套件的30个数据集上,我们表明我们的方法优于树木,并与复杂的最新Automl系统相同,并且在不到一秒钟内产生的预测。我们在补充材料中提供所有代码和最终训练的TABPFN。
translated by 谷歌翻译
这项研究提出了机器学习模型,这些模型使用大型钻探数据集预测和分类循环严重性损失。我们展示了利用易于解释的机器学习方法来应对大型钻井工程挑战的可再现核心技术。我们利用了来自伊朗Azadegan油田组的65,000多个记录数据,其中具有类不平衡问题。数据集的十七个参数中有11个参数用于五个丢失的循环事件的分类。为了生成分类模型,我们使用了六种基本的机器学习算法和四种合奏学习方法。线性判别分析(LDA),逻辑回归(LR),支持向量机(SVM),分类和回归树(CART),K-Nearest Neighbors(KNN)和Gaussian Naive Bayes(GNB)是六个基本技术。我们还在调查解决方案中使用包装和增强集合学习技术,以改善预测性能。这些算法的性能是使用四个指标测量的:精度,精度,回忆和F1得分。选择表示数据不平衡的F1得分作为首选评估标准。发现CART模型是识别钻孔流体循环损失事件的最佳选择,平均加权F1分数为0.9904,标准偏差为0.0015。在应用合奏学习技术后,决策树的随机森林合奏表现出最佳的预测性能。它以1.0的完美加权F1分数确定并分类丢失的循环事件。使用置换功能重要性(PFI),发现测得的深度是准确识别钻孔时丢失的循环事件的最具影响力因素。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
早期发现癌症是一种挑战性的医学问题。癌症患者的血液血清富含异质分泌脂质结合的细胞内囊泡(EVS),其具有复杂的信息和生物标志物,代表其原产地,目前在液检和癌症筛查领域中研究。振动光谱提供了非侵入性方法,用于评估复杂生物样品中的结构和生物物理性质。在该试点研究中,对来自来自四个不同癌症亚型(结直肠癌,肝细胞癌,乳腺癌和胰腺癌)和五名健康患者(对照组)组成的9例血浆中提取的多种拉曼光谱测量测量。 FTIR(傅里叶变换红外)光谱测量是作为拉曼分析的互补方法,在四个癌症亚型中的两种。 Adaboost随机森林分类器,决策树和支持向量机(SVM)区分癌症EV的基线校正拉曼光谱从健康对照(18 Spectra)的那些,当减少到频谱频率范围时,分类精度高于90% 1800至1940年反厘米,经过50:50培训:测试分裂。 14 Spectra的FTIR分类精度显示了80%的分类准确性。我们的研究结果表明,基本机器学习算法是强大的应用智能工具,以区分癌症患者EVS的复杂振动光谱来自健康患者。这些实验方法将希望作为人工智能辅助早期癌症筛查的有效和有效的液检活动。
translated by 谷歌翻译
Landslides在人为全球变暖时代的人类生活和财产的常规发生和令人震惊的威胁。利用数据驱动方法早日预测利用数据驱动方法是时间的要求。在这项研究中,我们探讨了最能描述Landslide易感性与最先进的机器学习方法的雄辩功能。在我们的研究中,我们采用了最先进的机器学习算法,包括XGBoost,LR,KNN,SVM,Adaboost用于滑坡敏感性预测。要查找每个单独分类器的最佳超级参数以优化性能,我们已纳入网格搜索方法,交叉验证10倍。在这种情况下,XGBoost的优化版本优先于所有其他分类器,交叉验证加权F1得分为94.62%。其次是通过合并Treeshap并识别斜坡,高度,TWI等雄辩的特征来探索XGBoost分类器,这些特征在于,XGBoost分类器的性能大多是Landuse,NDVI,SPI等功能,这对模型性能较小。 。根据Treeshap的特征说明,我们选择了15个最重要的滑坡因果因素。显然,XGBoost的优化版本随着特征减少40%,在具有十字架的流行评估度量方面表现优于所有其他分类器。 - 在培训和AUC分数的加权F1得分为95.01%,AUC得分为97%。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
Fruit is a key crop in worldwide agriculture feeding millions of people. The standard supply chain of fruit products involves quality checks to guarantee freshness, taste, and, most of all, safety. An important factor that determines fruit quality is its stage of ripening. This is usually manually classified by experts in the field, which makes it a labor-intensive and error-prone process. Thus, there is an arising need for automation in the process of fruit ripeness classification. Many automatic methods have been proposed that employ a variety of feature descriptors for the food item to be graded. Machine learning and deep learning techniques dominate the top-performing methods. Furthermore, deep learning can operate on raw data and thus relieve the users from having to compute complex engineered features, which are often crop-specific. In this survey, we review the latest methods proposed in the literature to automatize fruit ripeness classification, highlighting the most common feature descriptors they operate on.
translated by 谷歌翻译
小角度X射线散射(萨克斯)广泛用于材料科学,作为检查纳米结构的一种方式。实验萨克斯数据的分析涉及将相当简单的数据格式映射到大量的结构模型。尽管各种科学计算工具来协助模型选择,但活动依赖于萨克斯分析师的经验,这被认为是社区的效率瓶颈。要应对这一决策问题,我们开发和评估开源,基于机器学习的工具扫描(散射AI分析),以提供关于模型选择的建议。扫描利用多台机器学习算法,并使用模型和在SASView包中实现的模拟工具,用于生成定义的一组规定的数据集。我们的评价表明,扫描提供了95%-97%的整体准确性。 XGBoost分类器已被识别为最准确的方法,在准确性和培训时间之间的平衡良好。对于普通纳米结构的11个预定义的结构模型和易于抽取功能来扩展数量和类型培训模型,扫描可以加速萨克斯数据分析工作流程。
translated by 谷歌翻译
我们提出了一种新颖的方法,该方法将基于机器学习的交互式图像分割结合在一起,使用Supersoxels与聚类方法结合了用于自动识别大型数据集中类似颜色的图像的聚类方法,从而使分类器的指导重复使用。我们的方法解决了普遍的颜色可变性的问题,并且在生物学和医学图像中通常不可避免,这通常会导致分割恶化和量化精度,从而大大降低了必要的训练工作。效率的这种提高促进了大量图像的量化,从而为高通量成像中的最新技术进步提供了交互式图像分析。所呈现的方法几乎适用于任何图像类型,并代表通常用于图像分析任务的有用工具。
translated by 谷歌翻译
随着Terahertz(THZ)信号产生和辐射方法的最新进展,关节通信和传感应用正在塑造无线系统的未来。为此,预计将在用户设备设备上携带THZ光谱,以识别感兴趣的材料和气态组件。 THZ特异性的信号处理技术应补充这种对THZ感应的重新兴趣,以有效利用THZ频带。在本文中,我们介绍了这些技术的概述,重点是信号预处理(标准的正常差异归一化,最小值 - 最大归一化和Savitzky-Golay滤波),功能提取(主成分分析,部分最小二乘,t,T,T部分,t部分,t部分正方形,T - 分布的随机邻居嵌入和非负矩阵分解)和分类技术(支持向量机器,k-nearest邻居,判别分析和天真的贝叶斯)。我们还通过探索他们在THZ频段的有希望的传感能力来解决深度学习技术的有效性。最后,我们研究了在联合通信和传感的背景下,研究方法的性能和复杂性权衡;我们激励相应的用例,并在该领域提供未来的研究方向。
translated by 谷歌翻译
拒绝宇宙射线(CRS)对于CCD捕获数据的科学解释至关重要,但是单曝光图像中检测CRS仍然具有挑战性。传统的CR探测器需要针对不同仪器进行实验参数调整,而最近的深度学习方法仅产生特定于仪器的模型,这些模型遭受了未包括训练数据中未包括的望远镜的性能损失。在这项工作中,我们介绍了宇宙conn,这是在LAS Cumbres天文台(LCO)部署24个望远镜的通用CR探测器。我们首先利用来自LCO的全球望远镜网络的数千张图像来构建一个大型,不同的基于地面的CR数据集,以丰富覆盖仪器和CR功能。然后,我们优化了一个神经网络,并提出了一种新型的CR检测中间加权损耗函数,以训练在LCO成像数据上达到99.91%的真实阳性检测率的通用模型,并在Gemini GMOS-N-n. /s,假阳性率为0.01%。我们还构建了一套工具,包括交互式CR面膜可视化和编辑界面,控制台命令和Python API,以使天文学家社区广泛访问自动,可靠的CR检测。我们的数据集,开源代码库和训练有素的模型可在https://github.com/cy-xu/cosmic-conn上找到。
translated by 谷歌翻译