模糊哈希是数字取证中的重要工具,可用于近似匹配,以确定数字工件之间的相似性。他们将文件的字节代码转换为可计算的字符串,这使得它们对于智能机器处理特别有趣。在这项工作中,我们提出了深度学习近似匹配(DLAM),该匹配(DLAM)在检测模糊哈希异常的准确性比传统方法更高。除了著名的聚类恶意软件应用程序外,我们还表明,模糊的哈希和深度学习确实非常适合根据某些内容(例如恶意软件)进行分类。 DLAM依赖于自然语言处理领域的基于变压器的模型,并优于现有方法。传统的模糊哈希(TLSH和SSDEEP)的尺寸有限,并且与整体文件大小相比相对较小,并且无法检测到文件异常。然而,DLAM可以在TLSH和SSDEEP的计算模糊哈希中检测此类文件相关性,即使对于异常大小不到15%也是如此。它与最先进的模糊散列算法获得了可比的结果,同时依靠更高效的哈希计算,因此可以在更大的规模上使用。
translated by 谷歌翻译