单步反转合作是逆合合成计划的基石,这是计算机辅助药物发现的至关重要的任务。单步回合合成的目的是确定导致一个反应中靶产物合成的可能反应物。通过将有机分子表示为规范串,现有的基于序列的折叠方法将乘积 - 反应性逆合合成视为序列到序列翻译问题。但是,由于确定性推断,他们中的大多数人都难以识别所需产物的多种化学反应,这与以下事实相矛盾:许多化合物可以通过各种反应类型与不同的反应物组成。在这项工作中,我们旨在增加反应多样性并使用离散的潜在变量产生各种反应物。我们提出了一种基于序列的新方法,即RetrodVcae,该方法将条件变分自动化码器纳入单步回逆转录中,并将离散的潜在变量与生成过程相关联。具体而言,RetroDVCAE使用Gumbel-Softmax分布来近似于潜在反应的分类分布,并生成与变异解码器的多组反应物。实验表明,RetroDVCAE在基准数据集和自制数据集上的最先进基准均优于最先进的基线。定量和定性结果都表明,转化vcae可以在反应类型上对多模式分布进行建模,并产生各种反应物候选物。
translated by 谷歌翻译
逆合合成是一种将分子转化为潜在反应物的过程,因此鉴定了合成途径。我们提出了一个新颖的生成框架,称为$ \ mathsf {g^2retro} $,用于一步回曲预测。 $ \ mathsf {g^2retro} $模仿合成反应的反向逻辑,也就是说,首先预测反应中心以将靶分子转换为名为合成的片段,然后将合成剂转化为反应剂,然后按照先前的基于半电压的方法转换为反应剂。在预测反应中心时,$ \ mathsf {g^2retro} $定义了一组全面的反应中心类型,并通过考虑多个反应中心候选者来实现预测反应的多样性。在完成合成子时,$ \ mathsf {g^2retro} $部署了一系列子结构附件,以将合成物转换为反应物,该反应物利用了要完成的合成结构的最新结构的整体视图,以及所有所涉及的合成物和所有合成的结构产品结构。在这里,我们证明$ \ mathsf {g^2retro} $能够更好地对基准数据集中最可能的反应物进行优先级,而不是最先进的方法,并且发现了不包括在该方法中基准数据集。
translated by 谷歌翻译
反转合是药物发现的主要任务。通过许多现有方法,它被称为生成图的问题。具体而言,这些方法首先识别反应中心,并相应地打破靶分子以生成合成子。反应物是通过顺序添加到合成图或直接添加正确的离开组来生成反应物。但是,两种策略都遭受了添加原子以来会导致长期的预测顺序,从而增加了产生难度,同时添加离开组只能考虑训练集中的序列,从而导致概括不佳。在本文中,我们提出了一个新颖的端到端图生成模型,用于逆转录合成预测,该模型顺序识别反应中心,生成合成子,并将基序添加到合成子中以生成反应物。由于化学有意义的基序比原子大,比离开组还小,因此与添加原子相比,与添加离开组相比,我们的方法的预测复杂性较低。基准数据集上的实验表明,所提出的模型显着胜过先前的最新算法。
translated by 谷歌翻译
逆转合成 - 鉴定一组反应物合成靶分子的方法 - 对材料设计和药物发现至关重要。基于语言模型和图形神经网络的现有机器学习方法取得了令人鼓舞的结果。在本文中,我们提出了一个框架,将基于序列和图形的方法统一为基于能量的模型(EBMS),具有不同的能量功能。本统一的透视通过全面评估性能,提供了对EBM变体的关键洞察。此外,我们在框架内提出了一种新的双重变体,通过限制两个方向之间的协议,通过限制贝叶斯的前后预测来执行一致的训练。此模型可以提高最先进的性能,对于反应类型未知的无模块的方法,提高了9.6%。
translated by 谷歌翻译
化学反应预测,涉及正向合成和逆合合成预测,是有机合成中的一个基本问题。流行的计算范式将综合预测作为序列到序列翻译问题,其中采用典型的微笑来分子表示。然而,通用微笑忽略了化学反应的特征,其中分子图拓扑在很大程度上从反应物到产物不变,如果直接施加了笑容,则会导致微笑的次优性能。在本文中,我们提出了与根对准的微笑(R-Smiles),该微笑指定了产品和反应物微笑之间的紧密比对以进行更有效的合成预测。由于严格的一对一映射和降低的编辑距离,计算模型很大程度上免于学习复杂的语法,并致力于学习反应的化学知识。我们将提出的R-Smiles与各种最新基准进行比较,并表明它明显优于所有基准,这表明了所提出的方法的优越性。
translated by 谷歌翻译
丙酸的主要靶标是递归地将所需分子分解成可用的构件块。现有的基于模板的逆转性方法遵循模板选择刻板印象并遭受有限训练模板,这可以防止它们发现新的反应。为了克服限制,我们提出了一种创新的retrosynesp预测框架,可以撰写超出训练模板的新型模板。据我们所知,这是第一种可以找到用于逆转金属预测的新型模板的方法。此外,我们提出了一种有效的反应物候选候选模型,可以捕获原子级变换信息,并有助于我们的方法优于现有方法,通过大边距。实验结果表明,我们的方法可以在USPTO-50K数据集中生产328个测试反应的新型模板,包括训练模板未涵盖的21个测试反应。
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
translated by 谷歌翻译
需要产生具有所需特性的有效分子的分子产生是基本但具有挑战性的任务。近年来,目睹了原子级自动回归模型的快速发展,这通常构造在添加原子级节点和边缘的顺序动作之后的图表。然而,这些原子级模型忽略了高频子结构,其不仅捕获分子中原子组合的规律而且通常与所需的化学性质相关,因此可以是用于产生高质量分子的次优。在本文中,我们提出了一种方法来自动发现这种常见的子结构,从给定的分子图中呼叫图形件。我们还提出了一种基于图形件产生分子图的图片变形AutoEncoder(GP-VAE)。实验表明,我们的GP-VAE模型不仅可以实现更好的性能,而不是用于分发 - 学习,属性优化和约束性能优化任务,但也是计算效率的最先进的基线。
translated by 谷歌翻译
在药物发现中,分子优化是在所需药物性质方面将药物候选改变为更好的阶梯。随着近期人工智能的进展,传统上的体外过程越来越促进了Silico方法。我们以硅方法提出了一种创新的,以通过深生成模型制定分子并制定问题,以便产生优化的分子图。我们的生成模型遵循基于片段的药物设计的关键思想,并通过修改其小碎片来优化分子。我们的模型了解如何识别待优化的碎片以及如何通过学习具有良好和不良性质的分子的差异来修改此类碎片。在优化新分子时,我们的模型将学习信号应用于在片段的预测位置解码优化的片段。我们还将多个这样的模型构造成管道,使得管道中的每个模型能够优化一个片段,因此整个流水线能够在需要时改变多个分子片段。我们将我们的模型与基准数据集的其他最先进的方法进行比较,并证明我们的方法在中等分子相似度约束下具有超过80%的性质改善,在高分子相似度约束下具有超过80%的财产改善。 。
translated by 谷歌翻译
基于深度学习的分子建模的最新进步令人兴奋地加速硅药发现。可获得血清的生成模型,构建原子原子和键合或逐片键的分子。然而,许多药物发现项目需要固定的支架以存在于所生成的分子中,并纳入该约束仅探讨了该约束。在这里,我们提出了一种基于图形的模型,其自然地支持支架作为生成过程的初始种子,这是可能的,因为它不调节在发电历史上。我们的实验表明,Moler与最先进的方法进行了相当的方法,在无约会的分子优化任务上,并且在基于脚手架的任务上优于它们,而不是比现有方法从培训和样本更快的数量级。此外,我们展示了许多看似小设计选择对整体性能的影响。
translated by 谷歌翻译
用冷冻电子显微镜(Cryo-EM)溶液中生物分子高分辨率成像的近期突破已经解锁了用于重建分子体积的新门,从而有望在其他人之间进一步进一步进展。尽管有很大的入脚,但Cryo-EM数据分析中的巨大挑战仍然是军团和错综复杂的自然间学科,需要物理学家,结构生物学家,计算机科学家,统计学家和应用数学家的见解。同时,最近的下一代卷重建算法与端到端无监督的深度学习技术相结合的生成建模已经显示了对模拟数据的有希望的结果,但在应用于实验Cryo-EM图像时仍然面临相当大的障碍。鉴于此类方法的增殖并鉴于任务的跨学科性质,我们提出了对高分辨率低分辨率建模领域的最近进步的批判性审查。目前的审查旨在(i)比较和对比这些新方法,而(ii)将它们从透视和使用科学家熟悉的术语呈现出来,在任何五个上述领域中没有Cryo-Em中没有具体的背景。审查始于引言介绍低温 - EM批量重建的深度生成模型的数学和计算挑战,同时概述了这类算法中共享的基线方法。通过这些不同的模型建立了常见的线程编织,我们提供了这些最先进的算法的实际比较,突出了它们的相对优势和劣势以及它们依赖的假设。这使我们能够识别当前方法和途径的瓶颈,以便将来的研究。
translated by 谷歌翻译
发现更适合特定目的的新材料是提高人类生活质量的重要问题。这里,提出了一种神经网络,其建议基于对化学语言的深刻理解符合一些所需条件的神经网络(生成的化学变压器,GCT)。 GCT中的注意机制允许更深入地了解超出化学语言本身的局限性的分子结构,这使得语义不连续性稀疏地对角色造成了注意力。通过定量评估所生成的分子的质量,研究了语言模型对逆分子设计问题的重要性。 GCT产生高度现实的化学串,满足化学和语言语法规则。从生成的字符串解析的分子同时满足多个目标属性并因单个条件集而变化。通过加速所需物质发现的过程,这些进展将有助于提高人类生活质量。
translated by 谷歌翻译
它是科学技术的基础,能够预测化学反应及其性质。为实现此类技能,重要的是要培养良好的化学反应表示,或者可以自动从数据中学习此类表示的良好深度学习架构。目前没有普遍和广泛采用的方法,可强健地代表化学反应。大多数现有方法患有一个或多个缺点,例如:(1)缺乏普遍性; (2)缺乏稳健性; (3)缺乏可解释性;或(4)需要过度手动预处理。在这里,我们利用基于图的分子结构表示,以开发和测试一个超图注意神经网络方法,以一次解决反应表示和性能 - 预测问题,减轻了上述缺点。我们使用三个独立数据集化学反应评估三个实验中的这种超照片表示。在所有实验中,基于超图的方法与其他表示和它们相应的化学反应模型相匹配或优于相应的模型,同时产生可解释的多级表示。
translated by 谷歌翻译
在本文中,我们提出了多分辨率的等级图变分性Autiachoders(MGVAE),第一层级生成模型以多分辨率和等分的方式学习和生成图。在每个分辨率级别,MGVAE采用更高的顺序消息,以便在学习中对图进行编码,同时学习将其分配到互斥的集群中并赋予最终产生潜在分布的层次结构的较低分辨率。然后,MGVAE构造分层生成模型以改变地解码成粗糙的图形的层次。重要的是,我们提出的框架是关于节点排序的端到端排列等级。MGVAE通过多种生成任务实现竞争结果,包括一般图生成,分子产生,无监督的分子表示学习,以预测分子特性,引用图的链路预测,以及基于图的图像生成。
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
Conditional variational models, using either continuous or discrete latent variables, are powerful for open-domain dialogue response generation. However, previous works show that continuous latent variables tend to reduce the coherence of generated responses. In this paper, we also found that discrete latent variables have difficulty capturing more diverse expressions. To tackle these problems, we combine the merits of both continuous and discrete latent variables and propose a Hybrid Latent Variable (HLV) method. Specifically, HLV constrains the global semantics of responses through discrete latent variables and enriches responses with continuous latent variables. Thus, we diversify the generated responses while maintaining relevance and coherence. In addition, we propose Conditional Hybrid Variational Transformer (CHVT) to construct and to utilize HLV with transformers for dialogue generation. Through fine-grained symbolic-level semantic information and additive Gaussian mixing, we construct the distribution of continuous variables, prompting the generation of diverse expressions. Meanwhile, to maintain the relevance and coherence, the discrete latent variable is optimized by self-separation training. Experimental results on two dialogue generation datasets (DailyDialog and Opensubtitles) show that CHVT is superior to traditional transformer-based variational mechanism w.r.t. diversity, relevance and coherence metrics. Moreover, we also demonstrate the benefit of applying HLV to fine-tuning two pre-trained dialogue models (PLATO and BART-base).
translated by 谷歌翻译