现在数据分析方法都太卷!看这篇文章,用多个公开数据库发表柳叶刀子刊
现在面对大型的复杂数据,数据分析方法是真的越来愈复杂。尤其是机器学习,花样太多了。像我今天转载的这篇文章。使用机器学习对患有慢性危重症的异质性患者进行亚表型分型,以指导个体化体液平衡治疗:一项回顾性队列研究方法速览背景:慢性危重症(CCI)患者异质性大,导致重症监护病房(ICU)管理困难。识别亚表型有助于个体化护理,但该项研究尚未得到探索。本研究旨在鉴定CCI患者的亚...
现在面对大型的复杂数据,数据分析方法是真的越来愈复杂。尤其是机器学习,花样太多了。像我今天转载的这篇文章。
使用机器学习对患有慢性危重症的异质性患者进行亚表型分型,以指导个体化体液平衡治疗:一项回顾性队列研究
方法速览
背景:慢性危重症(CCI)患者异质性大,导致重症监护病房(ICU)管理困难。识别亚表型有助于个体化护理,但该项研究尚未得到探索。本研究旨在鉴定CCI患者的亚表型,揭示体液平衡对他们的异质性治疗效果。
方法:在这项回顾性研究中,将 CCI 定义为 ICU 住院时间超过 14 天,并与持续性器官功能障碍共存。研究了来自五个电子医疗记录数据集的数据,这些数据集涵盖了地理上不同的人群(美国、欧洲和中国)。本研究纳入了在第一个 ICU 收治期间符合 CCI 标准的患者。年龄超过 89 岁或 18 岁以下的患者被排除在外。独立采用3种无监督聚类算法进行表型推导和验证。极端梯度提升(XGBoost)用于表型分类器构建。应用参数G公式模型来估计ICU死亡率不同亚型在不同日常体液管理策略下的累积风险。
发现:在来自三个国家的8145名患者中确定了四种亚表型,即表型A、B、C和D。表型A是最轻微和最年轻的亚组;表型B是最常见的组别,其中患者年龄最大,酸碱异常明显,白细胞计数低;表型 C 患者有高钠血症、高氯血症和高分解代谢状态;在表型 D 中,患者伴有最严重的多器官衰竭。所选分类器显示出良好的有效性。所有队列的表型特征均表现出稳健性。亚表型的有益体液平衡阈值区间是不同的。
解释: 确定了四种新的表型,揭示了CCI患者体液治疗的不同模式和显著的异质性治疗效果。需要一项前瞻性研究来验证我们的研究结果,这可以为临床实践提供信息并指导未来的个性化护理研究。
分析方法(详述)
1.整体工作流程图
首先,从能够代表不同国家的多个数据库中提取数据。采用了几种数据准备策略。数据集被分类为训练队列、验证 I 队列、验证 II 队列和验证 III 队列。共识 K-means 表型分析最初在 Derivation 队列上进行,然后在验证 I 队列中得到验证。为了提高可重复性,使用潜在图谱分析和混合 SOM 分层聚类表型与共识 K-means 进行比较。采用UMAP和其他可视化协议进行比较。敏感性分析包括去除高度相关的聚类变量、不同方法插补数据中的表型,以及训练队列中插补和聚类的不同组合策略。对表型解释、亚表型与 SOFA 评分之间的相关性进行了进一步分析(以确保表型不是经典临床组和严重程度的简单概括)。
接下来,构建用于亚表型分类的精简分类器,该模型进一步在验证II和III队列中进行表型分配。最后,分析了治疗队列的纵向数据。在有向无环图中,箭头方向定义了干预(Ak、Ak+1、...)、基线变量(L0)、时间因变量(Lk、Lk+1、...)、未测量协变量(U)和结果变量(Y)的潜在因果框架。
采用参数化G公式模型,分析不同治疗策略下每日体液平衡的多个模拟过程,与治疗队列中总体人群的自然病程和各4种表型进行对比,探讨其与ICU生存率的异质性关联。
2.数据集和研究队列
使用了从四个公共重症监护数据库获得的 EHR 数据和来自中国南京的专有真实世界 EHR 数据集——(1)训练队列(MIMIC-IV v1.0,US)(2008–2019)的子集;(2)训练队列(MIMIC-III v1.4 'CareVue',US)(2001–2008)的子集;(3)验证I队列(eICU-CRD,US)(2014-2015);(4)验证II队列 (AmsterdamUMCdb/AUMC, Euro)(2003-2016 年);(5)验证III队列(中国金陵)(2017-2021)。治疗队列是从 MIMIC-IV 和 eICU-CRD 数据库获得的纵向数据
纳入了所有在 ICU 中被诊断为 CCI 的患者。CCI 被定义为 ICU 住院期间存在关键器官功能障碍的长期状态,使用的标准是:(a)ICU 持续时间≥14 天;(b) 在第 14 天与持续性器官功能障碍的证据(心血管 SOFA ≥1 或任何其他器官系统评分 ≥2)共存。排除标准是:(a) 年龄 >89 岁;(b) 年龄<18岁;(c) 入住重症监护室的顺序 ≥2
3.表型分析的候选临床变量
在 ICU 住院期间第 14 天从数据集中提取变量。总共从原始数据集中获得了 51 个临床变量。在评估缺失值比例后,去除超过40%的缺失变量,对剩余的25个变量进行进一步分析。并且计算了尿素-肌酐比值作为潜在的分解代谢指标。对于具有多个记录的其他指标,计算和分析平均值。
4.观察结局
主要结局:ICU住院期间的死亡
次要结局:院内死亡、ICU和住院时间以及出院地点
对于AmsterdamUMCdb数据集,仅分析了ICU死亡率和ICU住院时间
5.亚表型的推导与验证
5.1数据预处理程序
队列中存在一些严重的偏差、错误或缺失值。首先,将这些异常值和错误值替换为缺失值。然后,从推导和验证 I 队列中删除高缺失率(>40% 数据缺失)的变量。对于其余变量,使用预测均值匹配 (pmm) 进行多重插补,并使用三种额外的方法——分类和回归树 (CART)、加权预测均值匹配 (midastouch) 和随机森林插补 (rf) 进行敏感性分析。通过计算每个变量的平均值和中位数,总共生成了 20 个插补数据集和 2 个合并数据集。
5.2共识聚类
在训练队列中应用了共识聚类。在多指标考虑下确定最优聚类数量,包括(1)共识矩阵的集中度,(2)共识累积密度函数(CDF)曲线的平坦度,(3)CDF曲线下面积的肘点,(4)所有聚类的聚类一致性较高的聚类。在验证 I 队列中执行相同的表型分析框架以进行外部验证。
5.3评估CCI 亚表型的可重复性
进行了两种不同的聚类方法——潜在剖面分析 (LPA) 和混合自组织图谱 (SOM)-分层聚类 (hSOM)。对于 LPA,最佳聚类数由贝叶斯信息准则 (BIC)、熵、自举似然比检验 (BLRT) 和 Lo-Mendell-Rubin 检验 (LMR) 确定。如果统计检验不适用,计算BIC的肘点以确定最佳轮廓数量。熵用于评估模型的准确性,熵接近 0.8 的聚类数被认为是准确的。还考虑了模型稳定性,将样本量阈值设置为每个剖面总体后验模式的 5%。对于hSOM,首先计算一个SOM对象,然后进行分层聚类,最佳聚类数由平方变化之和的肘点确定。
6.亚表型分类器
使用 XGBoost 对亚表型识别分类器进行建模。根据特征重要性仔细选择变量,以构建最终的紧凑分类器。使用训练队列作为训练集。在训练集中使用10 倍交叉验证进行内部验证。验证 I 队列用作外部验证的测试集。使用该模型评估验证 II 和 III 队列表型。绘制了多类受试者工作特征 (ROC) 曲线并计算曲线下面积 (AUC) 以评估模型性能。
7.统计分析
7.1采用Kaplan-Meier生存分析来估计ICU住院期间的生存率,并通过log-rank检验进行评估。在生存分析中,将ICU住院期间的死亡事件设置为终点,将ICU住院时间设置为生存时间。
7.2计算 CCI 诊断后 ICU 住院期间的 28 天累积风险。
7.3通过评估亚表型与SOFA评分之间的相关性,以检查亚表型是否由疾病严重程度解释。
7.4检查每种亚表型的合并症。首先通过Shapiro-Wilk检验检查连续变量的高斯分布,然后根据需要表示为平均值(标准差)或中位数(四分位距,IQR)。
7.5为了进行比较,对连续数据采用Kruskal-Wallis检验,对分类数据采用卡方检验。
结果
结果 1 患者和研究队列
本研究共诊断为CCI的8145例患者,其中推导(MIMIC)队列3761例,治疗(MIMIC-IV)队列2136例,验证I(eICU-CRD,US)队列2987例,验证II(AmdsterdamUMCdb,Euro)队列1263例,验证III(中国金陵)队列134例。在所有队列中,男性的CCI比例更高。事实上,老年患者在CCI中总体上占主导地位。训练队列的总体 ICU 死亡率为 18.3%,中位 ICU 持续时间为 20.6 天。在CCI人群中,最常见的入院诊断为循环系统疾病、损伤和中毒、感染和寄生虫病、呼吸系统疾病。
结果 2 亚表型的推导表现出异质性特征
2.1.训练队列中CCI表型的特征(Table 1)
2.2.CCI亚表型的特征(Fig 2)
Fig. 2Characteristics of CCI subphenotypes.
结论:共识聚类确定了 4 类 CCI 亚表型,分别命名为表型 A、B、C 和 D。显示了特征和临床结果的比较。与CCI人群和其他表型相比,表型A患者是病情相对较轻的亚组(SOFA评分最低,年龄最小),生存率往往最高。表型B患者占所有患者中最大比例,年龄最大,碳酸氢盐明显较高,阴离子间隙较低。还发现他们的白细胞计数最低,在总体人群和其他表型中最低。表型C患者多器官功能障碍患者比A型和B型更严重,出现高钠血症和高氯血症。此外,它们还倾向于具有更高的尿素肌酐比率,代表潜在的高分解代谢状态。表型D患者多器官功能障碍最严重,事实上,表型 D 患者的尿素-肌酐比值是所有表型中最低的。此外,表型D患者入院时传染病诊断的比例最高
结果 3 CCI 亚表型的验证、可重复性和灵敏分析
为了评估从训练队列中开发的 CCI 亚表型的可重复性和稳定性,使用相同的共识 k-means 设置对验证 I 队列进行了外部验证,并获得了四个具有相似特征的聚类。CCI 表型 A 至 D 中的变量和 UMAP 分析的成对比较显示共识 k-means、LPA 和 hSOM 之间具有相似性,表明 CCI 亚表型具有良好的重现性(Fig 2 C–D)。灵敏分析获得了相似的亚表型特性。总体而言,这些分析证实了得出的CCI亚表型的可靠性。
结果 4 CCI亚表型的临床结果
4.1在训练队列的所有CCI亚表型中,表型A的ICU死亡率和住院死亡率最低,而表型D的ICU死亡率和医院死亡率最高(Table 1)。在训练队列的表型 A 中,患者往往具有更显着的良好预后比例。表型D是病情最严重的亚型,预后不良的比例最大。表型B和C的预后不如表型D。
4.2在 ICU 住院期间,推导 队列、验证I 队列、验证 II 队列和 验证 III 队列中共识 K-means 表型的生存分析
Fig.3 Survival analysis for consensus Kmeans phenotyping in the Derivation cohort, Validation I cohort, Validation II cohort, and Validation III cohort during ICU stay. In each subset figure, left side represented the Kaplan–Meier curve plots for four cohorts of 28-day mortality within ICU stay. The X-axis denotes the time (days) after patients were diagnosed with CCI (at Day 14 in ICU) and Y-axis denotes the cumulative hazard. CCI – Chronic critical illness; AUMC – AmsterdamUMCdb dataset.
结论:采用Kaplan-Meier生存分析,计算了ICU住院期间CCI诊断后28天生存的累积风险(Fig 3)。Kaplan-Meier曲线显示,表型A是所有亚表型中最低的,而表型B、C和D在ICU住院期间的短期死亡率更差。在其他验证队列中也观察到类似的结果。
结果 5 CCI亚表型与器官功能障碍严重程度的关系
进一步检查亚表型与疾病严重程度之间的关系,例如 SOFA 评分,以探讨先前确定的 CCI 亚表型是否只是器官功能障碍严重程度的反映。冲积图显示,亚型与SOFA组之间没有完全的直接对应关系。因此,推导的亚表型不能简单地用器官功能障碍的严重程度来解释。
简化的XGBoost分类器表现出良好的效果。绘制了多类ROC曲线并计算了它们的AUC(A:0.903;B:0.791;C:0.900;D:0.948;宏观:0.885;微观:0.889)用于有效性评估。然后,将紧凑模型应用于验证II和III队列,以获得亚表型成员,其亚表型特征与训练队列一致。为了方便临床医生,进一步构建了一个交互式界面应用程序。通过输入这六个指标,临床医生可以很容易地获得单个患者的适当亚表型以支持决策。
本公众提供各种科研服务了!
一、课程培训 2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看: 发表文章后退款!2023年郑老师团队多门科研统计直播课程,欢迎报名 二、统计服务 为团队发展,我们将与各位朋友合作共赢,本团队将开展统计分析服务,帮忙进行临床科研。欢迎了解详情: |
更多推荐
所有评论(0)