随着我们的社会年龄的增长,痴呆症是一个日益严重的问题,检测方法通常是侵入性且昂贵的。最近的深度学习技术可以提供更快的诊断,并显示出令人鼓舞的结果。但是,它们需要大量标记的数据,这些数据不容易用于痴呆检测任务。稀疏数据问题的一个有效解决方案是数据扩展,尽管需要仔细选择确切的方法。迄今为止,尚无对NLP和语音处理的阿尔茨海默氏病(AD)数据集的数据增强的实证研究。在这项工作中,我们研究了针对AD检测任务的数据增强技术,并对文本和音频域的两种模型上的不同方法进行经验评估。我们分别为两个域,SVM和随机森林模型使用基于变压器的模型,分别为文本和音频域。我们使用传统和基于深度学习的方法生成其他样本,并表明数据增强改善了基于文本和音频的模型的性能,并且此类结果可与流行的Adress集合中的最新结果相媲美,具有精心制作的架构和功能。
translated by 谷歌翻译
对协作学习的实证攻击表明,深度神经网络的梯度不仅可以披露训练数据的私有潜在属性,还可以用于重建原始数据。虽然先前的作品试图量化了梯度的隐私风险,但这些措施没有建立理论上对梯度泄漏的理解了解,而不是跨越攻击者的概括,并且不能完全解释通过实际攻击在实践中通过实证攻击观察到的内容。在本文中,我们介绍了理论上激励的措施,以量化攻击依赖和攻击无关方式的信息泄漏。具体而言,我们展示了$ \ mathcal {v} $ - 信息的适应,它概括了经验攻击成功率,并允许量化可以从任何所选择的攻击模型系列泄漏的信息量。然后,我们提出了独立的措施,只需要共享梯度,用于量化原始和潜在信息泄漏。我们的经验结果,六个数据集和四种流行型号,揭示了第一层的梯度包含最高量的原始信息,而(卷积)特征提取器层之后的(完全连接的)分类层包含最高的潜在信息。此外,我们展示了如何在训练期间诸如梯度聚集的技术如何减轻信息泄漏。我们的工作为更好的防御方式铺平了道路,例如基于层的保护或强聚合。
translated by 谷歌翻译