基于社交媒体语言的临床抑郁模型的基本组成部分是抑郁症状检测(DSD)。不幸的是,没有任何DSD数据集都反映出自lif污抑郁症的样本中抑郁症状的临床见解和分布。在我们的工作中,我们描述了一个主动学习框架(AL)框架,该框架使用了最初的监督学习模型1)1)最先进的大型心理健康论坛文本文本预训练的语言模型在临床医生注释的临床医生上进行了微调DSD数据集,2)DSD的零拍学习模型,并将它们融合在一起,从我们大型自我策划的抑郁症推文存储库(DTR)中收获抑郁症状相关的样本。我们的临床医生注释的数据集是同类数据集中最大的数据集。此外,DTR是由自披露的抑郁用户在两个数据集中的Twitter时间轴中创建的,其中包括从Twitter中检测到用户级抑郁症的最大基准数据集之一。这进一步有助于保留自张开的Twitter用户推文的抑郁症状分布。随后,我们使用收获的数据迭代地重新训练我们的初始DSD模型。我们讨论了该过程的停止标准和局限性,并阐述了在整个AL过程中起着至关重要的作用的基础构造。我们证明我们可以生产最终的数据集,这是同类产品中最大的数据集。此外,对其进行训练的DSD和抑郁症检测(DPD)模型的精度明显优于初始版本。
translated by 谷歌翻译