二进制代码分析的最新趋势促进了基于教学嵌入模型的神经解决方案的使用。指令嵌入模型是一个神经网络,将汇编指令序列转换为嵌入向量。如果对嵌入式网络进行了训练,从而使从代码到向量的翻译部分保留了语义,则该网络有效地代表了汇编代码模型。在本文中,我们介绍了Binbert,这是一种新颖的装配代码模型。 Binbert建立在汇编指令序列和符号执行信息的庞大数据集中的预训练的变压器上。 Binbert可以应用于汇编指令序列,并且可以微调,即可以作为任务特定数据的神经体系结构的一部分进行重新训练。通过微调,Binbert学会了如何将获得预培训获得的通用知识应用于特定任务。我们根据多任务基准评估了Binbert,我们专门设计了用于测试组装代码的理解。基准是由几个任务组成的,其中一些是从文献中获得的,以及我们设计的一些新颖任务,并结合了内在和下游任务。我们的结果表明,Binbert优于二进制指令嵌入的最先进模型,提高了二进制代码理解的标准。
translated by 谷歌翻译
高水平的缺失数据和强大的类别不平衡是普遍存在的挑战,这些挑战通常在真实世界序列数据中同时呈现。现有方法分别接近这些问题,经常对底层数据生成过程进行显着假设,以减少缺失信息的影响。在这项工作中,我们可以利用展示如何普遍的自我监督训练方法,即自动评论预测编码(APC),以克服同时缺失的数据和类不平衡而没有强烈的假设。具体地,在合成数据集上,我们表明,通过使用APC,标准基线基本上得到改善,在高缺失和严重的阶级不平衡中产生最大的收益。我们进一步应用于两个现实世界医疗时间系列数据集的APC,并表明APC在所有设置中提高了分类性能,最终实现了最先进的AUPRC结果在物理体基准上。
translated by 谷歌翻译