随着我们的社会年龄的增长,痴呆症是一个日益严重的问题,检测方法通常是侵入性且昂贵的。最近的深度学习技术可以提供更快的诊断,并显示出令人鼓舞的结果。但是,它们需要大量标记的数据,这些数据不容易用于痴呆检测任务。稀疏数据问题的一个有效解决方案是数据扩展,尽管需要仔细选择确切的方法。迄今为止,尚无对NLP和语音处理的阿尔茨海默氏病(AD)数据集的数据增强的实证研究。在这项工作中,我们研究了针对AD检测任务的数据增强技术,并对文本和音频域的两种模型上的不同方法进行经验评估。我们分别为两个域,SVM和随机森林模型使用基于变压器的模型,分别为文本和音频域。我们使用传统和基于深度学习的方法生成其他样本,并表明数据增强改善了基于文本和音频的模型的性能,并且此类结果可与流行的Adress集合中的最新结果相媲美,具有精心制作的架构和功能。
translated by 谷歌翻译