Prognostication for lung cancer, a leading cause of mortality, remains a complex task, as it needs to quantify the associations of risk factors and health events spanning a patient's entire life. One challenge is that an individual's disease course involves non-terminal (e.g., disease progression) and terminal (e.g., death) events, which form semi-competing relationships. Our motivation comes from the Boston Lung Cancer Study, a large lung cancer survival cohort, which investigates how risk factors influence a patient's disease trajectory. Following developments in the prediction of time-to-event outcomes with neural networks, deep learning has become a focal area for the development of risk prediction methods in survival analysis. However, limited work has been done to predict multi-state or semi-competing risk outcomes, where a patient may experience adverse events such as disease progression prior to death. We propose a novel neural expectation-maximization algorithm to bridge the gap between classical statistical approaches and machine learning. Our algorithm enables estimation of the non-parametric baseline hazards of each state transition, risk functions of predictors, and the degree of dependence among different transitions, via a multi-task deep neural network with transition-specific sub-architectures. We apply our method to the Boston Lung Cancer Study and investigate the impact of clinical and genetic predictors on disease progression and mortality.
translated by 谷歌翻译
从电子健康记录(EHR)数据中进行有效学习来预测临床结果,这通常是具有挑战性的,因为在不规则的时间段记录的特征和随访的损失以及竞争性事件(例如死亡或疾病进展)。为此,我们提出了一种生成的事实模型,即Survlatent Ode,该模型采用了基于基于微分方程的复发性神经网络(ODE-RNN)作为编码器,以有效地对不规则采样的输入数据进行潜在状态的动力学有效地参数化。然后,我们的模型利用所得的潜在嵌入来灵活地估计多个竞争事件的生存时间,而无需指定事件特定危害功能的形状。我们展示了我们在Mimic-III上的竞争性能,这是一种从重症监护病房收集的自由纵向数据集,预测医院死亡率以及DANA-FARBER癌症研究所(DFCI)的数据,以预测静脉血栓症(静脉血栓症(DFCI)(DFCI)( VTE),是癌症患者的生命并发症,死亡作为竞争事件。幸存ODE优于分层VTE风险组的当前临床标准Khorana风险评分,同时提供临床上有意义且可解释的潜在表示。
translated by 谷歌翻译
神经网络中的大多数工作都集中在给定一组协变量的情况下估计连续响应变量的条件平均值。在本文中,我们考虑使用神经网络估算有条件的分布函数,以审查和未经审查的数据。该算法建立在与时间依赖性协变量有关COX回归的数据结构上。在不施加任何模型假设的情况下,我们考虑了基于条件危险函数是唯一未知的非参数参数的损失函数,可以应用不明显的优化方法。通过仿真研究,我们显示了所提出的方法具有理想的性能,而部分可能性方法和传统的神经网络具有$ l_2 $损失产量的偏向估计,当模型假设违反。我们进一步用几个现实世界数据集说明了提出的方法。提出的方法的实现可在https://github.com/bingqing0729/nncde上获得。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
We develop a Bayesian semi-parametric model for the estimating the impact of dynamic treatment rules on survival among patients diagnosed with pediatric acute myeloid leukemia (AML). The data consist of a subset of patients enrolled in the phase III AAML1031 clinical trial in which patients move through a sequence of four treatment courses. At each course, they undergo treatment that may or may not include anthracyclines (ACT). While ACT is known to be effective at treating AML, it is also cardiotoxic and can lead to early death for some patients. Our task is to estimate the potential survival probability under hypothetical dynamic ACT treatment strategies, but there are several impediments. First, since ACT was not randomized in the trial, its effect on survival is confounded over time. Second, subjects initiate the next course depending on when they recover from the previous course, making timing potentially informative of subsequent treatment and survival. Third, patients may die or drop out before ever completing the full treatment sequence. We develop a generative Bayesian semi-parametric model based on Gamma Process priors to address these complexities. At each treatment course, the model captures subjects' transition to subsequent treatment or death in continuous time under a given rule. A g-computation procedure is used to compute a posterior over potential survival probability that is adjusted for time-varying confounding. Using this approach, we conduct posterior inference for the efficacy of hypothetical treatment rules that dynamically modify ACT based on evolving cardiac function.
translated by 谷歌翻译
由于存在抗抗,因此仅由于例如损失跟踪而仅部分已知的抗抗,因此仅存在抗抗,因此存在于回归建模的具有挑战性。这些问题经常在医疗应用中出现,使生存分析成为医疗保健的生物统计学和机器学习的关键努力,Cox回归模型是最常用的模型。我们描述了一种基于COX回归的学习混合物来模拟各个生存分布的生存分析回归模型的新方法。我们提出了对该模型的预期最大化算法的近似,该算法对混合组进行了艰难的分配,以进行优化效率。在每个组分配中,我们使用深神经网络的每个组内的危险比以及每个混合物组分非参数的基线危害。我们对多个现实世界数据集进行实验,并查看种族和性别患者的死亡率。我们强调了校准在医疗保健环境中的重要性,并证明我们的方法在鉴别性能和校准方面表明了古典和现代生存分析基线,在少数人口统计数据上具有大的收益。
translated by 谷歌翻译
1972年出现了经典的COX模型,促进了如何使用生物医学中的事实分析来量化患者预后的突破。该模型最有用的特征之一是分析中变量的解释性。但是,这是以引入有关回归模型功能形式的强有力的假设的代价。为了打破这一差距,本文旨在利用新的套索神经网络在间隔进行审查的设置中利用经典COX模型的解释性优势,该网络同时选择最相关的变量,同时量化预测因子和生存时间之间的非线性关系。在广泛的模拟研究中,新方法的增益在经验上进行了说明,其中涉及线性和非线性地面依赖性的示例。我们还证明了我们在NHANES 2003-2006波的生理,临床和加速度计分析中的策略表现,以预测体育活动对患者存活的影响。我们的方法的表现优于使用传统Cox模型的文献中的先前结果。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
使用完整的患者病史预测临床事件的个人风险仍然是个性化医学的主要挑战。在用于计算个体动态预测的方法中,联合模型具有在辍学时使用所有可用信息的资产。但是,它们仅限于少量的纵向预测因子。我们的目标是提出一种创新的替代解决方案,以使用可能大量的纵向预测变量来预测事件概率。我们开发了Dynforest,这是处理内源性纵向预测因子的竞争风险的随机生存森林的扩展。在树的每个节点上,将时间依赖的预测变量转换为定期特征(使用混合模型),以用作将受试者分为两个亚组的候选者。单个事件的概率是由Aalen-Johansen估计器在每棵树中估算的,该叶子的叶子是根据其预测因子史对受试者进行分类的。最终的个人预测由特定于树特定的个人事件概率的平均值给出。我们进行了一项仿真研究,以证明在小维环境(与关节模型相比)和较大的维环境(与忽略内容丰富的辍学方法的回归校准方法相比)中的DynForest的性能。我们还将DynForest应用于(i)根据认知,功能,血管和神经脱位标记的重复度量预测老年人痴呆的个体概率,以及(ii)量化每种标记物对痴呆预测的重要性。在R软件包DynForest中实施,我们的方法论为预测纵向内生预测变量的事件的方法提供了解决方案。
translated by 谷歌翻译
神经网络(深度学习)是人工智能中的现代模型,并且在生存分析中已被利用。尽管以前的作品已经显示出一些改进,但培训出色的深度学习模型需要大量数据,这在实践中可能不存在。为了应对这一挑战,我们开发了一个基于Kullback-Leibler(KL)深度学习程序,以将外部生存预测模型与新收集的活动时间数据整合在一起。时间依赖性的KL歧视信息用于衡量外部数据和内部数据之间的差异。这是考虑使用先前信息来处理深度学习生存分析中的简短数据问题的第一项工作。仿真和实际数据结果表明,与以前的工作相比,所提出的模型可实现更好的性能和更高的鲁棒性。
translated by 谷歌翻译
现实世界中临床干预措施的治疗功效的估计涉及处理诸如死亡时间,重新住院或可能受到检查的复合事件之类的连续结果。在这种情况下,反事实推理需要将混杂的生理特征的影响与正在评估的干预措施的影响中影响基线存活率的影响。在本文中,我们提出了一种潜在变量方法来模拟异质治疗效果,该方法通过提出一个人可以属于具有不同响应特征的潜在簇之一。我们表明,这种潜在结构可以介导基本的生存率,并有助于确定干预的影响。我们证明了我们的方法根据个人对最初进行的多个大型随机临床试验的治疗反应来发现可行的表型的能力,该试验最初是为了评估适当的治疗方法以降低心血管风险。
translated by 谷歌翻译
机器学习在医疗保健中的应用通常需要处理时间到事实的预测任务,包括不良事件的预测,重新住院或死亡。由于失去随访,此类结果通常受到审查。标准的机器学习方法不能直接地应用于具有审查结果的数据集。在本文中,我们提出了Auton-Survival,这是一个开源存储库,用于简化审查的活动时间或生存数据的工具。Auton Survival包括用于生存回归的工具,存在域移位,反事实估计,风险分层的表型,评估以及治疗效果的估计。通过采用大量SEER肿瘤学发病率数据的现实世界案例研究,我们证明了Auton Survival迅速支持数据科学家在回答复杂健康和流行病学问题方面的能力。
translated by 谷歌翻译
Real-time individual endpoint prediction has always been a challenging task but of great clinic utility for both patients and healthcare providers. With 6,879 chronic kidney disease stage 4 (CKD4) patients as a use case, we explored the feasibility and performance of gated recurrent units with decay that models Weibull probability density function (GRU-D-Weibull) as a semi-parametric longitudinal model for real-time individual endpoint prediction. GRU-D-Weibull has a maximum C-index of 0.77 at 4.3 years of follow-up, compared to 0.68 achieved by competing models. The L1-loss of GRU-D-Weibull is ~66% of XGB(AFT), ~60% of MTLR, and ~30% of AFT model at CKD4 index date. The average absolute L1-loss of GRU-D-Weibull is around one year, with a minimum of 40% Parkes serious error after index date. GRU-D-Weibull is not calibrated and significantly underestimates true survival probability. Feature importance tests indicate blood pressure becomes increasingly important during follow-up, while eGFR and blood albumin are less important. Most continuous features have non-linear/parabola impact on predicted survival time, and the results are generally consistent with existing knowledge. GRU-D-Weibull as a semi-parametric temporal model shows advantages in built-in parameterization of missing, native support for asynchronously arrived measurement, capability of output both probability and point estimates at arbitrary time point for arbitrary prediction horizon, improved discrimination and point estimate accuracy after incorporating newly arrived data. Further research on its performance with more comprehensive input features, in-process or post-process calibration are warranted to benefit CKD4 or alike terminally-ill patients.
translated by 谷歌翻译
我们提出了一种通用公式,用于具有临床生存数据的设置中连续治疗建议问题,我们称之为深层生存剂量反应函数(DEEPSDRF)。也就是说,我们认为学习条件平均剂量反应(CADR)的问题仅来自历史数据,在历史数据中,观察到的因素(混杂因素)都会影响观察到的治疗和事件时间结果。DEEPSDRF的估计治疗效果使我们能够开发出针对选择偏差的校正的推荐算法。我们比较了基于随机搜索和强化学习的两种推荐方法,并在患者结局方面发现了相似的表现。我们在广泛的仿真研究和EICU研究所(ERI)数据库中测试了DeepSDRF和相应的推荐剂。据我们所知,这是首次使用因果模型来解决医疗环境中观察数据的连续治疗效果。
translated by 谷歌翻译
加速故障时间(AFT)模型假设故障时间与一组协变量之间的对数线性关系。与其他在危险功能上起作用的流行生存模型相反,协变量的影响直接对失败时间,其解释是直观的。未指定误差分布的半参数AFT模型对于与分布假设的不同是灵活且鲁棒的。由于理想的功能,这类模型被认为是对审查失败时间数据分析的流行COX模型的有希望的替代方法。但是,在这些AFT模型中,通常假定为平均值的线性预测指标。在建模平均值时,很少有研究解决了预测因素的非线性。在过去的几十年中,深度神经网络(DNNS)在各种领域都获得了杰出的成功。 DNN具有许多显着的优势,并且已被证明在解决非线性方面特别有用。通过利用此优势,我们建议使用GEHAN型损失拟合AFT模型中的DNN,并结合子采样技术。通过广泛的刺激研究研究了拟议DNN和基于等级的AFT模型(DEEPR-AFT)的有限样品特性。当预测因子是非线性时,DeepR-AFT在其参数或半摩米特里对应物上显示出卓越的性能。对于线性预测指标,当协变量的尺寸较大时,DEEPR-AFT的性能更好。使用两个真实数据集说明了所提出的DeepR-AFT,这证明了其优越性。
translated by 谷歌翻译
当结果或感兴趣的响应是发生预先指定事件的时间时,使用了事件时间分析(生存分析)。有时由于时间本身是离散的,或者是由于将故障时间分组为间隔或四舍五入测量值,因此有时是离散的。另外,一个人的失败可能是几种不同的失败类型之一。被称为竞争风险(事件)数据。这项工作着重于与竞争活动的离散时间回归。我们强调了通过竞争事件的连续和离散设置之间的主要区别,开发新的估计程序以及现在的PYDTS,PYDTS是一个开源Python软件包,它实现了我们的估计程序和其他用于具有竞争风险的离散时间苏装分析的工具。
translated by 谷歌翻译
多状态生存分析(MSA)使用多状态模型来分析事件时间数据。在医疗应用中,MSA可以提供有关患者复杂疾病进展的见解。 MSA中的一个关键挑战是对多状态模型数量(例如过渡概率和状态职业概率)的精确预测。传统的多状态方法,例如Aalen-Johansen(AJ)估计量和基于COX的方法,分别受马尔可夫和比例危害假设的限制,并且对于做出特定于主题的预测而言是不可行的。 MSA的神经普通微分方程放宽了这些假设,但在计算上很昂贵,并且不会直接建模过渡概率。为了解决这些局限性,我们提出了一类新的基于伪值的深度学习模型,用于多态生存分析,我们表明,旨在处理审查的伪值 - 可以自然替代多国家模型源自一致的估计器时的数量。特别是,我们提供了一种算法来从一致的估计器中得出伪值,以直接预测受试者协变量的多状态生存量。合成和现实世界数据集的经验结果表明,我们提出的模型在各种审查设置下实现了最新的结果。
translated by 谷歌翻译
基于森林的方法最近在非参数治疗效应估计中获得了普及。在这一工作方面,我们引入了因果生存森林,可用于在可能右估计结果的生存和观察环境中估计异质治疗效果。我们的方法依赖于正交估计方程来在不满意的情况下对审查和选择效果进行鲁棒性调整。在我们的实验中,我们发现相对于许多基线的表现良好的方法。
translated by 谷歌翻译
我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译