尽管相似性搜索研究的不断发展,但它仍然面临着由于数据的复杂性而面临的相同挑战,例如维度和计算距离距离功能的诅咒。已证明,各种机器学习技术能够用简单的线性功能组合来代替精心设计的数学模型,通常以正式保证的准确性和正确的查询性能来获得速度和简单性。作者通过为3D蛋白质结构搜索的复杂问题提供了轻巧的解决方案来探索这一研究趋势的潜力。该解决方案由三个步骤组成:(i)将3D蛋白结构信息转换为非常紧凑的向量,(ii)使用概率模型将这些向量分组并通过返回给定数量的类似对象和(iii)来响应查询,并且)最终的过滤步骤,该步骤应用基本的向量距离函数来完善结果。
translated by 谷歌翻译