Question: Can an encoder-decoder architecture pretrained on a large dataset of longitudinal electronic health records improves patient outcome predictions? Findings: In this prognostic study of 6.8 million patients, our denoising sequence-to-sequence prediction model of multiple outcomes outperformed state-of-the-art models scuh pretrained BERT on a broad range of patient outcomes, including intentional self-harm and pancreatic cancer. Meaning: Deep bidirectional and autoregressive representation improves patient outcome prediction.
translated by 谷歌翻译
英国生物银行标准化表型代码的目的与住院的患者有关,但对于许多在门诊环境中接受治疗的患者缺失但缺失。我们描述了一种表型识别方法,该方法为所有英国生物库参与者施加了表型代码。材料和方法POPDX(基于人群的客观表型通过深度推断)是双线性机器学习框架,用于同时估计1,538个表型代码的概率。我们从英国生物库中提取了392,246个人的表型和健康相关信息,以进行POPDX开发和评估。共有12,803个ICD-10患者的诊断代码被转换为1,538个Phecodes,作为黄金标准标签。对POPDX框架进行了评估,并将其与自动多型识别的其他可用方法进行了比较。结果POPDX可以预测训练中罕见甚至未观察到的表型。我们证明了22种疾病类别的自动多型识别及其在识别与每种表型相关的关键流行病学特征方面的应用。结论POPDX有助于为下游研究提供明确定义的队列。这是一种通用方法,可以应用于具有不同但不完整数据的其他生物库。
translated by 谷歌翻译
临床笔记是健康记录的重要组成部分。本文评估了如何使用自然语言处理(NLP)来确定肿瘤患者急性护理使用(ACU)的风险,一旦化疗开始。使用结构化健康数据(SHD)的风险预测现在是标准的,但是使用自由文本格式的预测很复杂。本文探讨了自由文本注释用于预测ACU而不是SHD的使用。将深度学习模型与手动设计的语言功能进行了比较。结果表明,SHD模型最少胜过NLP模型。具有SHD的L1型逻辑回归的C统计量为0.748(95%-CI:0.735,0.762),而具有语言功能的相同模型达到0.730(95%-CI:0.717,0.745)和基于变形金属的模型模型达到了0.702(95%-CI:0.688,0.717)。本文展示了如何在临床应用中使用语言模型,并强调了不同患者群体的风险偏见如何不同,即使仅使用自由文本数据。
translated by 谷歌翻译
Electronic health records (EHR) offer unprecedented opportunities for in-depth clinical phenotyping and prediction of clinical outcomes. Combining multiple data sources is crucial to generate a complete picture of disease prevalence, incidence and trajectories. The standard approach to combining clinical data involves collating clinical terms across different terminology systems using curated maps, which are often inaccurate and/or incomplete. Here, we propose sEHR-CE, a novel framework based on transformers to enable integrated phenotyping and analyses of heterogeneous clinical datasets without relying on these mappings. We unify clinical terminologies using textual descriptors of concepts, and represent individuals' EHR as sections of text. We then fine-tune pre-trained language models to predict disease phenotypes more accurately than non-text and single terminology approaches. We validate our approach using primary and secondary care data from the UK Biobank, a large-scale research study. Finally, we illustrate in a type 2 diabetes use case how sEHR-CE identifies individuals without diagnosis that share clinical characteristics with patients.
translated by 谷歌翻译
电子健康记录(EHRS)在患者级别汇总了多种信息,并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景,并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断,但患者记录可以包含长期跨度的信息,这些信息与快速生成的医疗数据速率相结合,使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助,并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案,该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构:一组支持灵活的输入功能集,以将患者的录取转换为密集的表示;以及在基于复发的架构中进行的第二次探索提取的入院表示,其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案,以两种不同的临床结果,意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力,但这可以通过微调临床模型来解释。最后,我们使用滑动窗口机制来表示基于序列的体系结构的潜力,以表示输入数据,从而获得与其他现有解决方案的可比性能。
translated by 谷歌翻译
最近显示外部眼睛照片显示出糖尿病性视网膜疾病和HBA1C升高的迹象。在本文中,我们评估外部眼睛照片是否包含有关其他系统性医疗状况的信息。我们开发了一个深度学习系统(DLS),该系统将外部眼睛的照片作为输入,并预测多个全身参数,例如与肝脏有关的参数(白蛋白,AST);肾脏(EGFR使用无种族的2021 CKD-EPI肌酐方程,尿液ACR);骨与矿物质(钙);甲状腺(TSH);和血数(HGB,WBC,血小板)。开发利用了49,015例糖尿病患者的151,237张图像,在加利福尼亚州洛杉矶县的11个地点接受糖尿病眼镜筛查。评估重点是9个预先指定的全身参数,并利用了3个验证集(a,b,c),涵盖了28,869名患有和没有糖尿病的患者,在加利福尼亚州洛杉矶县和大亚特兰大地区的3个独立地点进行了眼睛筛查。我们将结合了可用临床人口统计学变量的基线模型(例如年龄,性别,种族/种族,糖尿病年)进行了比较。相对于基线,DLS在检测AST> 36,钙<8.6,egfr <60,HGB <11,血小板<150,ACR> = 300和WBC <4时,在检测AST> 36,钙<8.6,Egfr <60,HGB <60,HGB <60,calcium <8.6,Egfr <60,calcium <8.6和wbc <4时,达到了统计学上的显着性能,并且类似于开发集的人口),其中DLS的AUC超过基线的AUC,增长了5.2-19.4%。在验证集B和C方面,与开发集相比,患者人群的差异很大,DLS的表现优于ACR> = 300的基线,而HGB <11升至7.3-13.2%。我们的发现提供了进一步的证据,表明外部眼睛照片包含跨越多器官系统的全身健康生物标志物。需要进一步的工作来研究这些生物标志物是否以及如何转化为临床影响。
translated by 谷歌翻译
There is an increasing interest in developing artificial intelligence (AI) systems to process and interpret electronic health records (EHRs). Natural language processing (NLP) powered by pretrained language models is the key technology for medical AI systems utilizing clinical narratives. However, there are few clinical language models, the largest of which trained in the clinical domain is comparatively small at 110 million parameters (compared with billions of parameters in the general domain). It is not clear how large clinical language models with billions of parameters can help medical AI systems utilize unstructured EHRs. In this study, we develop from scratch a large clinical language model - GatorTron - using >90 billion words of text (including >82 billion words of de-identified clinical text) and systematically evaluate it on 5 clinical NLP tasks including clinical concept extraction, medical relation extraction, semantic textual similarity, natural language inference (NLI), and medical question answering (MQA). We examine how (1) scaling up the number of parameters and (2) scaling up the size of the training data could benefit these NLP tasks. GatorTron models scale up the clinical language model from 110 million to 8.9 billion parameters and improve 5 clinical NLP tasks (e.g., 9.6% and 9.5% improvement in accuracy for NLI and MQA), which can be applied to medical AI systems to improve healthcare delivery. The GatorTron models are publicly available at: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og.
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译
与痴呆症相关的认知障碍(CI)在全球范围内影响超过5500万人,并且每3秒钟以一个新病例的速度迅速增长。随着临床试验反复出现的失败,早期诊断至关重要,但是在低水平和中等收入国家中,全球75%的痴呆症病例未被诊断为90%。众所周知,当前的诊断方法是复杂的,涉及对医学笔记,大量认知测试,昂贵的脑部扫描或脊柱液体测试的手动审查。与CI相关的信息经常在电子健康记录(EHR)中找到,并且可以为早期诊断提供重要线索,但是专家的手动审查是繁琐的,并且容易发生。该项目开发了一种新型的最新自动筛选管道,用于可扩展和高速发现EHR中的CI。为了了解EHR中复杂语言结构的语言环境,构建了一个8,656个序列的数据库,以训练基于注意力的深度学习自然语言处理模型以对序列进行分类。使用序列级别分类器开发了基于逻辑回归的患者级别预测模型。深度学习系统的精度达到了93%,AUC = 0.98,以识别其EHR中没有较早诊断,与痴呆有关的诊断代码或与痴呆有关的药物的患者。否则,这些患者将未被发现或检测到太晚。 EHR筛选管道已部署在Neurahealthnlp中,这是一种用于自动化和实时CI筛选的Web应用程序,只需将EHR上传到浏览器中即可。 Neurahealthnlp更便宜,更快,更容易获得,并且胜过当前的临床方法,包括基于文本的分析和机器学习方法。它使得早期诊断可在稀缺的医疗服务中可行,但可访问的互联网或蜂窝服务。
translated by 谷歌翻译
我们利用深度顺序模型来解决预测患者医疗保健利用的问题,这可能有助于政府更好地为未来的医疗保健使用提供资源。具体地,我们研究\纺织{发散亚组}的问题,其中较小的人口小组中的结果分布大大偏离了一般人群的群体。如果亚组的尺寸非常小(例如,稀有疾病),则对不同亚组的专业模型建造专门模型的传统方法可能是有问题的。为了解决这一挑战,我们首先开发一种新的无关注顺序模型,SANSFORMERS,灌输了适合在电子医疗记录中建模临床码的归纳偏差。然后,我们通过在整个健康登记处预先培训每个模型(接近100万名患者)之前,设计了一个特定的自我监督目标,并展示其有效性,特别是稀缺数据设置,特别是在整个健康登记处(接近一百万名患者)进行微调下游任务不同的子组。我们使用两个数据来源与LSTM和变压器模型进行比较新的SANSFARER架构和辅助医疗利用预测的多任务学习目标。凭经验,无关注的Sansformer模型在实验中始终如一地执行,在大多数情况下以至少$ \ SIM 10 $ \%表现出在大多数情况下的基线。此外,在预测医院访问数量时,自我监督的预训练将在整个始终提高性能,例如通过超过$ \ sim 50 $ \%(和高度为800美元\%)。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
基于临床票据的决策支持系统有可能通过指向监督风险的医生来改善患者护理。预测患者的结果是这种系统的重要组成部分,其中利用深神经网络的使用表明了有希望的结果。然而,这些网络学到的模式大多是不透明的,之前的工作揭示了关于非预期偏差的再现的缺陷。因此,我们引入了一个可扩展的测试框架,评估了关于输入变化的临床结果模型的行为。该框架有助于了解学习模式及其对模型决策的影响。在这项工作中,我们将其应用于对患者特征性别,年龄和种族的行为变化。我们对三个目前的临床NLP模型的评估表明了这些特征对模型决策的具体影响。他们表明,即使在相同的数据上微调并且据称最佳的模型并不总是学习最卓越的模式的模式,模型行为也变得剧烈变化。
translated by 谷歌翻译
基于变压器模型架构的最近深入学习研究在各种域和任务中展示了最先进的性能,主要是在计算机视觉和自然语言处理域中。虽然最近的一些研究已经实施了使用电子健康记录数据的临床任务的变压器,但它们的范围,灵活性和全面性有限。在本研究中,我们提出了一种灵活的基于变换器的EHR嵌入管道和预测模型框架,它引入了利用了医疗域唯一的数据属性的现有工作流程的几个新颖修改。我们展示了灵活设计的可行性,在重症监护病房的案例研究中,我们的模型准确地预测了七种临床结果,这些临床结果与多个未来的时间范围有关的入院和患者死亡率。
translated by 谷歌翻译
痴呆症是一种神经退行性疾病,导致认知下降,并影响全世界超过5000万人。痴呆症是由医疗保健专业人士诊断的 - 只有患有痴呆症的四个人中只有一名诊断出来。即使制造诊断,也可能无法作为患者图表中的疾病(ICD)诊断码的结构化国际分类。与认知障碍(CI)有关的信息通常在电子健康记录(EHR)中发现,但专家临床医生票据的手工审查既耗时,往往容易出错。本票据的自动化挖掘为在EHR数据中标记有认知障碍患者的机会。我们开发了自然语言处理(NLP)工具,以识别具有认知障碍的患者,并证明语言背景提高了认知障碍分类任务的性能。我们微调我们的注意力深入学习模型,可以从复杂的语言结构中学习,并且相对于基线NLP模型的精度(0.93)大大提高(0.84)。此外,我们表明深度学习NLP可以成功识别没有痴呆相关的ICD代码或药物的痴呆症患者。
translated by 谷歌翻译
对世界各地的急诊部门(ED)服务的需求不断增长,特别是在Covid-19大流行下。风险三环在优先考虑最需要它们的患者的有限医疗资源方面发挥着至关重要的作用。最近,普遍使用电子健康记录(EHR)已经产生了大量的存储数据,伴随着开发可改善紧急护理的预测模型的巨大机会。然而,没有基于大型公共EHR的广泛接受的ED基准,这是新的研究人员可以轻松访问的基准。填补这种差距的成功可以使研究人员更快,方便地开始研究,而无需详细数据预处理,并促进不同研究和方法之间的比较。在本文中,基于医疗信息MART为重症监护IV急诊部门(MIMIC-IV-ED)数据库,我们提出了一款公共ED基准套件,并获得了从2011年到2019年的50万ED访问的基准数据集。三个ed已经介绍了基于预测任务(住院,关键结果和72小时ED Revisit),其中实施了各种流行的方法,从机器学习方法到临床评分系统进行了实施。他们的性能结果评估并进行了比较。我们的代码是开源,因此任何具有访问模仿-IV-ED的人都可以遵循相同的数据处理步骤,构建基准,并重现实验。本研究提供了洞察力,建议,以及未来研究人员的协议,以处理原始数据并快速建立紧急护理模型。
translated by 谷歌翻译
我们研究了从术前数据(视网膜图像和临床特征)后黄斑手术后预测视觉改善的机器学习模型的潜力。收集我们自己的任务数据,我们最终只有121个样本,将我们的工作放在非常有限的数据制度中。我们探索了各种深度学习方法,用于培训深层电脑视觉模型的有限数据,发现所有测试的深远型号都是通过临床特征上简单的回归模型表现出的。我们认为这是在非常有限的数据上使用深度学习的极端难度的令人信服的证据。
translated by 谷歌翻译
计算文本表型是从临床注释中鉴定出患有某些疾病和特征的患者的实践。由于很少有用于机器学习的案例和域专家的数据注释需求,因此难以识别的罕见疾病要确定。我们提出了一种使用本体论和弱监督的方法,并具有来自双向变压器(例如BERT)的最新预训练的上下文表示。基于本体的框架包括两个步骤:(i)文本到umls,通过上下文将提及与统一医学语言系统(UMLS)中的概念链接到命名的实体识别和链接(NER+L)工具,SemeHR中提取表型。 ,以及具有自定义规则和上下文提及表示的弱监督; (ii)UMLS-to-to-ordo,将UMLS概念与孤子罕见疾病本体论(ORDO)中的罕见疾病相匹配。提出了弱监督的方法来学习一个表型确认模型,以改善链接的文本对umls,而没有域专家的注释数据。我们评估了来自美国和英国两个机构的三个出院摘要和放射学报告的临床数据集的方法。我们最好的弱监督方法获得了81.4%的精度和91.4%的召回,从模仿III出院摘要中提取罕见疾病UMLS表型。总体管道处理临床笔记可以表面罕见疾病病例,其中大部分在结构化数据(手动分配的ICD代码)中没有受到平衡。关于模仿III和NHS Tayside的放射学报告的结果与放电摘要一致。我们讨论了弱监督方法的有用性,并提出了未来研究的方向。
translated by 谷歌翻译
谵妄是急性急性发病脑功能障碍,在紧急情况下,与较高的死亡率有关。由于其演示和风险因素难以检测和监测,这取决于患者的潜在病情。在我们的研究中,我们旨在识别谵妄人口中的亚型,并建立使用医疗信息MART进行密集护理IV(MIMIC-IV)数据来检测谵妄的亚组特定的预测模型。我们表明谵妄存在于谵妄中。对于特定于组的预测模型,还观察到特征重要性的差异。我们的工作可以重新校准每个谵妄亚组的现有谵妄预测模型,并提高ICU或急诊部门患者的谵妄检测和监测的精度。
translated by 谷歌翻译
Tuberculosis (TB), an infectious bacterial disease, is a significant cause of death, especially in low-income countries, with an estimated ten million new cases reported globally in $2020$. While TB is treatable, non-adherence to the medication regimen is a significant cause of morbidity and mortality. Thus, proactively identifying patients at risk of dropping off their medication regimen enables corrective measures to mitigate adverse outcomes. Using a proxy measure of extreme non-adherence and a dataset of nearly $700,000$ patients from four states in India, we formulate and solve the machine learning (ML) problem of early prediction of non-adherence based on a custom rank-based metric. We train ML models and evaluate against baselines, achieving a $\sim 100\%$ lift over rule-based baselines and $\sim 214\%$ over a random classifier, taking into account country-wide large-scale future deployment. We deal with various issues in the process, including data quality, high-cardinality categorical data, low target prevalence, distribution shift, variation across cohorts, algorithmic fairness, and the need for robustness and explainability. Our findings indicate that risk stratification of non-adherent patients is a viable, deployable-at-scale ML solution.
translated by 谷歌翻译