动机:针对感兴趣的蛋白质的新颖化合物的发展是制药行业中最重要的任务之一。深层生成模型已应用于靶向分子设计,并显示出令人鼓舞的结果。最近,靶标特异性分子的产生被视为蛋白质语言与化学语言之间的翻译。但是,这种模型受相互作用蛋白质配对的可用性的限制。另一方面,可以使用大量未标记的蛋白质序列和化学化合物,并已用于训练学习有用表示的语言模型。在这项研究中,我们提出了利用预审核的生化语言模型以初始化(即温暖的开始)目标分子产生模型。我们研究了两种温暖的开始策略:(i)一种一阶段策略,其中初始化模型是针对靶向分子生成(ii)的两阶段策略进行培训的,该策略包含对分子生成的预处理,然后进行目标特定训练。我们还比较了两种生成化合物的解码策略:光束搜索和采样。结果:结果表明,温暖启动的模型的性能优于从头开始训练的基线模型。相对于基准广泛使用的指标,这两种拟议的温暖启动策略相互取得了相似的结果。然而,对许多新蛋白质生成的化合物进行对接评估表明,单阶段策略比两阶段策略更好地概括了。此外,我们观察到,在对接评估和基准指标中,梁搜索的表现优于采样,用于评估复合质量。可用性和实施​​:源代码可在https://github.com/boun-tabi/biochemical-lms-for-drug-design和材料中获得,并在Zenodo归档,网址为https://doi.org/10.5281/zenodo .6832145
translated by 谷歌翻译