人工智能和自动化方面的最新发展可能会导致新的药物设计范式:自主药物设计。在此范式下,生成模型就具有特定特性的数千个分子提供了建议。但是,由于只能合成和测试有限数量的分子,因此一个明显的挑战是如何有效选择这些分子。我们将这项任务作为上下文随机的多军强盗问题,具有多个戏剧和挥发性臂。然后,为了解决它,我们将以前的多臂匪徒扩展到反映这种设置,并将我们的解决方案与随机采样,贪婪的选择和腐烂的epsilon-greedy选择进行比较。为了研究不同选择策略如何影响选择的累积奖励和多样性,我们模拟了药物设计过程。根据仿真结果,我们的方法具有更好地探索和利用自主药物设计的化学空间的潜力。
translated by 谷歌翻译