尽管相似性搜索研究的不断发展,但它仍然面临着由于数据的复杂性而面临的相同挑战,例如维度和计算距离距离功能的诅咒。已证明,各种机器学习技术能够用简单的线性功能组合来代替精心设计的数学模型,通常以正式保证的准确性和正确的查询性能来获得速度和简单性。作者通过为3D蛋白质结构搜索的复杂问题提供了轻巧的解决方案来探索这一研究趋势的潜力。该解决方案由三个步骤组成:(i)将3D蛋白结构信息转换为非常紧凑的向量,(ii)使用概率模型将这些向量分组并通过返回给定数量的类似对象和(iii)来响应查询,并且)最终的过滤步骤,该步骤应用基本的向量距离函数来完善结果。
translated by 谷歌翻译
索引是支持大型数据库中有效查询处理的有效方法。最近,已积极探索了替代或补充传统索引结构的学习指数的概念,以降低存储和搜索成本。但是,在高维度空间中准确有效的相似性查询处理仍然是一个开放的挑战。在本文中,我们提出了一种称为LIMS的新型索引方法,该方法使用数据群集,基于枢轴的数据转换技术和学习的索引来支持度量空间中的有效相似性查询处理。在LIM中,将基础数据分配到簇中,使每个群集都遵循相对均匀的数据分布。数据重新分布是通过利用每个集群的少量枢轴来实现的。类似的数据被映射到紧凑的区域,而映射的值是完全顺序的。开发机器学习模型是为了近似于磁盘上每个数据记录的位置。有效的算法设计用于基于LIMS的处理范围查询和最近的邻居查询,以及具有动态更新的索引维护。与传统索引和最先进的学习索引相比,对现实世界和合成数据集的广泛实验证明了LIM的优势。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
蛋白质是人类生命的重要组成部分,其结构对于功能和机制分析很重要。最近的工作表明了AI驱动方法对蛋白质结构预测的潜力。但是,新模型的开发受到数据集和基准测试培训程序的限制。据我们所知,现有的开源数据集远不足以满足现代蛋白质序列相关研究的需求。为了解决这个问题,我们介绍了具有高覆盖率和多样性的第一个百万级蛋白质结构预测数据集,称为PSP。该数据集由570K真实结构序列(10TB)和745K互补蒸馏序列(15TB)组成。此外,我们还提供了该数据集上SOTA蛋白结构预测模型的基准测试训练程序。我们通过参与客串比赛验证该数据集的实用程序进行培训,我们的模特赢得了第一名。我们希望我们的PSP数据集以及培训基准能够为AI驱动的蛋白质相关研究提供更广泛的AI/生物学研究人员社区。
translated by 谷歌翻译
Geometric deep learning has recently achieved great success in non-Euclidean domains, and learning on 3D structures of large biomolecules is emerging as a distinct research area. However, its efficacy is largely constrained due to the limited quantity of structural data. Meanwhile, protein language models trained on substantial 1D sequences have shown burgeoning capabilities with scale in a broad range of applications. Nevertheless, no preceding studies consider combining these different protein modalities to promote the representation power of geometric neural networks. To address this gap, we make the foremost step to integrate the knowledge learned by well-trained protein language models into several state-of-the-art geometric networks. Experiments are evaluated on a variety of protein representation learning benchmarks, including protein-protein interface prediction, model quality assessment, protein-protein rigid-body docking, and binding affinity prediction, leading to an overall improvement of 20% over baselines and the new state-of-the-art performance. Strong evidence indicates that the incorporation of protein language models' knowledge enhances geometric networks' capacity by a significant margin and can be generalized to complex tasks.
translated by 谷歌翻译
RNA结构的确定和预测可以促进靶向RNA的药物开发和可用的共性元素设计。但是,由于RNA的固有结构灵活性,所有三种主流结构测定方法(X射线晶体学,NMR和Cryo-EM)在解决RNA结构时会遇到挑战,这导致已解决的RNA结构的稀缺性。计算预测方法作为实验技术的补充。但是,\ textit {de从头}的方法都不基于深度学习,因为可用的结构太少。取而代之的是,他们中的大多数采用了耗时的采样策略,而且它们的性能似乎达到了高原。在这项工作中,我们开发了第一种端到端的深度学习方法E2FOLD-3D,以准确执行\ textit {de de novo} RNA结构预测。提出了几个新的组件来克服数据稀缺性,例如完全不同的端到端管道,二级结构辅助自我鉴定和参数有效的骨干配方。此类设计在独立的,非重叠的RNA拼图测试数据集上进行了验证,并达到平均sub-4 \ aa {}根平方偏差,与最先进的方法相比,它表现出了优越的性能。有趣的是,它在预测RNA复杂结构时也可以取得令人鼓舞的结果,这是先前系统无法完成的壮举。当E2FOLD-3D与实验技术耦合时,RNA结构预测场可以大大提高。
translated by 谷歌翻译
高维空间中的大约最近的邻居搜索(ANN)对于许多现实生活应用程序(例如电子商务,Web,多媒体等)至关重要。在本文中,我们提出了一个端到端的学习框架,该框架将分区(ANN的一个关键步骤)和使用自定义损失函数进行学习进行搜索步骤。我们提出的解决方案的关键优势是,它不需要对数据集进行任何昂贵的预处理,这是最新方法的关键局限性之一。我们通过制定不需要地面真实标签来量化数据空间分区的质量的多目标自定义损失函数来实现上述边缘,从而完全不受监督。我们还通过在损失功能中添加不同的输入权重来训练模型集合以增强搜索质量来提出一种结合技术。在几个标准的ANN标准基准上,我们表明我们的方法击败了最新的空间分区方法和无处不在的K-均值聚类方法,同时使用较少的参数和较短的离线训练时间。在没有一般性的情况下,我们的无监督分区方法被证明是许多广泛使用的聚类方法(例如K-均值聚类和DBSCAN)的有希望的替代方法。
translated by 谷歌翻译
The prediction of protein structures from sequences is an important task for function prediction, drug design, and related biological processes understanding. Recent advances have proved the power of language models (LMs) in processing the protein sequence databases, which inherit the advantages of attention networks and capture useful information in learning representations for proteins. The past two years have witnessed remarkable success in tertiary protein structure prediction (PSP), including evolution-based and single-sequence-based PSP. It seems that instead of using energy-based models and sampling procedures, protein language model (pLM)-based pipelines have emerged as mainstream paradigms in PSP. Despite the fruitful progress, the PSP community needs a systematic and up-to-date survey to help bridge the gap between LMs in the natural language processing (NLP) and PSP domains and introduce their methodologies, advancements and practical applications. To this end, in this paper, we first introduce the similarities between protein and human languages that allow LMs extended to pLMs, and applied to protein databases. Then, we systematically review recent advances in LMs and pLMs from the perspectives of network architectures, pre-training strategies, applications, and commonly-used protein databases. Next, different types of methods for PSP are discussed, particularly how the pLM-based architectures function in the process of protein folding. Finally, we identify challenges faced by the PSP community and foresee promising research directions along with the advances of pLMs. This survey aims to be a hands-on guide for researchers to understand PSP methods, develop pLMs and tackle challenging problems in this field for practical purposes.
translated by 谷歌翻译
支架结构的构建支持所需的基序,赋予蛋白质功能,显示出对疫苗和酶设计的希望。但是,解决这个主题交易问题的一般解决方案仍然开放。当前的脚手架设计的机器学习技术要么仅限于不切实际的小脚手架(长达20个长度),要么难以生产多种不同的脚手架。我们建议通过E(3) - 等级图神经网络学习各种蛋白质主链结构的分布。我们开发SMCDIFF以有效地从给定主题的条件下从该分布中采样脚手架;我们的算法是从理论上确保从扩散模型中的有条件样品,以大规模计算限制。我们通过与Alphafold2预测的结构保持一致的方式来评估我们设计的骨干。我们表明我们的方法可以(1)最多80个残基的样品支架,以及(2)实现固定基序的结构多样的支架。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
Molecular machine learning has been maturing rapidly over the last few years.Improved methods and the presence of larger datasets have enabled machine learning algorithms to make increasingly accurate predictions about molecular properties. However, algorithmic progress has been limited due to the lack of a standard benchmark to compare the efficacy of proposed methods; most new algorithms are benchmarked on different datasets making it challenging to gauge the quality of proposed methods. This work introduces MoleculeNet, a large scale benchmark for molecular machine learning. MoleculeNet curates multiple public datasets, establishes metrics for evaluation, and offers high quality open-source implementations of multiple previously proposed molecular featurization and learning algorithms (released as part of the DeepChem
translated by 谷歌翻译
子图相似度搜索是图形分析中的基本操作员。在此框架中,给定查询图和图形数据库,目标是识别结构图的数据库图的子图,这些图是与查询相似的。子图编辑距离(SED)是子图相似度最有表现力的措施之一。在这项工作中,我们研究了从训练的图形对和他们的SED值训练SED的问题。为此,我们设计了一种名为Neurosed的新型暹罗图形神经网络,其学习嵌入空间,具有丰富的结构,让人想起SED。借助专门制作的归纳偏差,不仅可以实现高精度,而且确保预测的SED,如真正的SED,满足三角不等式。设计足够通用,也可以模拟图表编辑距离(GED),同时确保预测的GED空间是指标,如真正的GED空间。对于SED和GED的真实图数据集进行了广泛的实验,建立了神经传播的RMSE比现有技术的约2倍,并且比最快的基线快约18倍。此外,由于其对独立的嵌入和理论性质,神经翻转允许大约3个峰值检索图形和子图。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
我们介绍了Proteus,这是一种新型的自设计近似范围滤波器,它根据采样数据进行配置,以便针对给定的空间要求优化其误报率(FPR)。 Proteus统一了最先进的范围过滤器的概率和确定性设计空间,以在较大的用例中实现稳健的性能。 Proteus的核心是我们的上下文前缀FPR(CPFPR)模型 - 在其设计空间中基于前缀过滤器的FPR的正式框架。我们从经验上证明了模型和Proteus在合成工作负载和现实世界数据集上优化的能力的准确性。我们进一步评估了RockSDB中的Proteus,并表明它能够将端到端的性能提高到5.3倍,而不是更脆的先进方法,例如Surf和Rosetta。我们的实验还表明,与端到端的性能增长相比,建模的成本并不显着,并且Proteus对工作负载转移的稳定性。
translated by 谷歌翻译
由影响它们折叠并因此决定其功能和特征的氨基酸链组成,蛋白质是一类大分子,它们在主要生物过程中起着核心作用,并且是人体组织的结构,功能和调节所必需的。了解蛋白质功能对于治疗和精确医学的发展至关重要,因此可以根据可测量特征对蛋白质进行分类及其功能至关重要。实际上,从其主要结构(称为其主要结构)中对蛋白质特性的自动推断仍然是生物信息学领域中的一个重要开放问题,尤其是考虑到测序技术的最新进展和广泛的已知但未分类的蛋白质具有未知属性。在这项工作中,我们演示和比较了几个深度学习框架的性能,包括新型双向LSTM和卷积模型,这些卷积模型在蛋白质数据库(PDB)的广泛可用的测序数据合作中,结构生物信息信息技术(RCSB),RCSB),RCSB(RCSB),RCSB(RCSB)的研究合作。除了对经典的机器学习方法进行基准测试,包括K-Nearest邻居和多项式回归分类器,对实验数据进行了培训。我们的结果表明,我们的深度学习模型为经典的机器学习方法提供了卓越的性能,卷积体系结构提供了最令人印象深刻的推理性能。
translated by 谷歌翻译
蛋白质RNA相互作用对各种细胞活性至关重要。已经开发出实验和计算技术来研究相互作用。由于先前数据库的限制,尤其是缺乏蛋白质结构数据,大多数现有的计算方法严重依赖于序列数据,只有一小部分使用结构信息。最近,alphafold彻底改变了整个蛋白质和生物领域。可预应学,在即将到来的年份,也将显着促进蛋白质-RNA相互作用预测。在这项工作中,我们对该字段进行了彻底的审查,调查绑定站点和绑定偏好预测问题,并覆盖常用的数据集,功能和模型。我们还指出了这一领域的潜在挑战和机遇。本调查总结了过去的RBP-RNA互动领域的发展,并预见到了alphafold时代未来的发展。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
由于高存储成本和计算要求,在实践中分析了许多或长时间序列。因此,已经提出了技术来生成时间序列的紧凑相似性保存表示,从而实现大量内存数据集合的实时相似性搜索。然而,当序列在局部间隙时,现有技术并不适合评估相似性。在本文中,我们提出了使用产品量化以了解基于时间序列的有效相似性的比较。该想法是首先通过将时间序列划分为由短代码表示的相等长度子序列来压缩数据。然后可以通过在其代码之间的预先计算的弹性距离来有效地近似于两个时间序列之间的距离。分区进入子序列强制不需要的对齐,我们使用最大重叠离散小波变换(MODWT)与预先对准步骤进行地址。为了展示我们方法的效率和准确性,我们对最近邻居分类和聚类应用中的基准数据集进行了广泛的实验评估。总的来说,所提出的解决方案作为高效(在内存使用和计算时间方面)的高效(无论是在时间序列应用中的弹性措施的替代。
translated by 谷歌翻译