诸如GPT-3之类的大型审慎模型通过利用自学学习的学习来学习明显的表现,从而对现代自然语言处理产生了巨大影响,这些表现可以轻易地对各种下游任务进行挑剔。我们通过使用微笑语言构建化学基础模型Chemberta-2来研究将这种进步转移到分子机器学习中的可能性。虽然标记的分子预测任务数据通常很少,但微笑字符串的库很容易获得。在这项工作中,我们通过优化预处理过程来建立Chemberta。我们比较了通过不同的超参数和预处理数据集尺寸的多任务和自我监督预训练的预测,来自PubChem最多77m化合物。据我们所知,77m集合构成了迄今为止用于分子预处理的最大数据集之一。我们发现,通过这些预处理的改进,我们与Moleculenet基准套件上现有的最先进的体系结构具有竞争力。我们分析了预读的改进的程度,转化为下游任务的改进。
translated by 谷歌翻译