近年来,临床文本处理引起了越来越多的关注。另一方面,访问敏感的患者数据仍然是一个巨大的挑战,因为如果没有法律障碍,就无法共享文本,而无需删除个人信息。有许多技术可以修改或删除与患者相关的信息,每种信息都具有不同的优势。本文使用对应于五个不同NLP任务的多个数据集研究了不同匿名技术对ML模型性能的影响。提出了一些学习和建议。这项工作证实,特别强大的匿名技术导致了大量的性能下降。除此之外,大多数提出的技术并不是基于相似性搜索的重新识别攻击的安全性。
translated by 谷歌翻译